IFRAME: https://www.googletagmanager.com/ns.html?id=GTM-WSX46L
'Deep Learning' : attention, vos appareils vous observent 'Deep
Learning' : attention, vos appareils vous observent
Geek
'Deep Learning' : attention, vos appareils vous observent par Anne Lods
Quel est le lien entre votre compte Instagram et les voitures autonomes
? Le Deep Learning. Monstre de technologie, il est à l’origine de
nombreux progrès scientifiques. Pour tout comprendre, on a demandé à la
data-scientist Alexia Audevart de nous éclairer.
Temps de lecture
4 minutes
Publié le Jeudi 3 Janvier 2019
Vous êtes-vous déjà demandé comment votre smartphone repérait les
visages sur votre écran ? Ou comment Google Translate traduisait vos
devoirs d’anglais ? Grâce à un seul et même procédé : le Deep Learning.
Vous en avez peut-être entendu parler à la sortie des enceintes
connectées, qui s'invitent dans tous les foyers et qui en sont
équipées.
C'est l’une des principales techniques d’intelligence artificielle
utilisées aujourd’hui et, à en croire le scientifique spécialisé Andrew
NG, il s’invitera bientôt dans tous les appareils qui peuvent se
connecter à l’électricité.
Qu’est-ce que c’est ?
Tout d’abord, il faut savoir que le vaste univers de l’intelligence
artificielle est composé en partie d’un processus appelé le Machine
Learning. Il s’agit d’une technique d’apprentissage dédiée aux
machines. A partir de plusieurs informations qu’on lui livre,
l’ordinateur apprend à effectuer une tâche. Exemple : si Netflix sait
vous recommander un film à 98%, ce n’est pas parce qu’il vous observe,
vous, votre double-menton et votre pyjama en pilou pilou par la webcam,
mais bien grâce à cette technique. Même principe avec votre fil
d’actualité , où la machine cible des informations qui
pourraient vous intéresser plus que d’autres à partir de données qu’on
lui a fournies.
Le Deep Learning, quant à lui, est un sous-ensemble du Machine
Learning. Plus complexe, cette technologie permet de traiter de plus
grandes quantités de données que les algorithmes classiques issus du
Machine Learning, et son modèle n’est autre que le cerveau humain.
D’après la data-scientist Alexia Audevart, qui a animé dernièrement une
conférence à ce sujet au Salon de la Data de Nantes, le Deep Learning
est une modélisation mathématique, inspirée du fonctionnement du
cerveau. Elle permet de reproduire certaines caractéristiques humaines,
comme la capacité de mémoire, d’apprentissage et de traitement
d’informations complexes. L’objectif est donc de simuler l’intelligence
humaine, dans et grâce à une machine. Et le but est que la machine
apprenne toute seule…
[giphy.gif]
Mais Jamy, dans quoi l’utilise-t-on ?
Aujourd’hui, comme nous le rappelle Alexia Audevart, même notre compte
Gmail est équipé de Deep Learning. Voyez les réponses automatiques
qu’on vous propose à la fin de vos mails, c’est bien lui. Les procédés
de traduction automatiques viennent également du Deep Learning, tout
comme les techniques de reconnaissance faciale de différentes applis
disponibles sur smartphone. Néanmoins, cette intelligence est aussi
utilisée dans le développement de technologies plus spectaculaires et
notamment en médecine où elles sont parfois plus efficaces que l’homme.
Grâce à l’imagerie (images 3D et radiologie), certaines pathologies
comme le cancer du sein sont plus facilement diagnostiquées et donc
soignées.
Dans un tout autre domaine, le Deep Learning pourrait aussi aider à
lutter contre les fake news, mais aussi servir à la littérature. Si des
livres ont récemment été traduits entièrement par des intelligences
artificielles, certains ont même été entièrement écrits par celles-ci.
C’est ce que nous apprend le média Les Influences. Ross Goodwin, un
créateur d’intelligences artificielles aurait déposé une caméra sur le
toit d’une voiture, reliée à un GPS, un micro et une horloge. Puis,
lors d’un voyage entre la Louisiane et New York, guidée par un
conducteur, l’IA aurait écrit une histoire, s’inspirant de tout ce
qu’elle voyait. Impressionnant.
Puis, enfin, on le sait, ce sont ces mêmes voitures qui sont amenées à
devenir autonomes et ce, grâce au Deep Learning. Comme il permet de
comprendre de quoi est composée une image dans toute sa complexité, il
pourrait rapidement remplacer l’homme au volant. Dangers, piétons,
feux, autres véhicules, tout doit être passé au crible par la voiture,
comme vous pouvez le voir dans la vidéo ci-dessous.
What the #AI sees: an example of an object detection #Algorithms
HT evankirstelSpirosMargaris evankirstel andi_staub mclynd
diioannid ipfconline1 JacBurns_Comext LouisSerge jerome_joffre
HaroldSinnott kalydeoo ahier Ym78200 sallyeaves rajat_shrimal
HITpol pic.twitter.com/xqroFPCWCS
— Jean-Baptiste Lefevre (jblefevre60) 28 novembre 2018
Cependant, pour l’instant les techniques ne sont pas encore tout à fait
au point. En mai dernier, une Américaine a été tuée, percutée par un
Uber sans conducteur en période d’essai. Deux chauffeurs de Tesla ont
également trouvé la mort en roulant sous pilote automatique ces trois
dernières années. Des accidents qui servent malheureusement à la
recherche, puisque comme l’explique Alexia Audevart, ce qui est
intéressant c’est de "comprendre comment la machine apprend, aussi pour
ne pas qu’elle devienne un monstre".
Car si de telles erreurs inspirent d’excellents scénarii de films de
science-fiction, ce sont des choses qu’on ne veut pas voir se
reproduire dans la vraie vie - à l'image de iRobot ou de Her (où
Joaquin Phoenix tombe amoureux d'une IA). Par ailleurs, d’après le site
Clubic, l’un des pères du Deep Learning, Yoshua Bengio, aurait
d’ailleurs déclaré qu’il s’opposait à l’idée que l’IA puisse servir le
domaine militaire. "Nous devons rendre immoral le fait d'avoir des
robots tueurs", a-t-il précisé. Et on n’aurait pas dit mieux …
Pour que ce soit encore plus clair, on vous conseille cette vidéo de
David Louapre.
IFRAME: https://www.youtube.com/embed/trWrEWfhTVg
Six choses à savoir sur Jameela Jamil, la vraie star de "The Good
Place" Six choses à savoir sur Jameela Jamil, la vraie star de "The
Good Place"
L'époque en live
Cinq choses à savoir sur Jameela Jamil, la vraie star de "The Good Place" par
Dan Hastings
#publisher
IFRAME: https://www.googletagmanager.com/ns.html?id=GTM-WQX772B
Quel est le meilleur traducteur automatique en ligne et gratuit ?
Un test effectué sur 12 applications de traduction automatique en ligne et
gratuites.
Sur le site redaction.be, Jean-Marc Hardy nous a offert en avril
dernier les résultats d'un exercice fort utile : la comparaison des
traducteurs automatiques en accès libre. Il a soumis à 12 applications
en ligne de traduction automatique 25 fragments de texte en anglais, en
demandant une traduction vers le français. Les textes comprenaient 267
erreurs possibles, selon l'estimation de J. M. Hardy.
Les résultats de ce test devraient être lus par tous les élèves et
étudiants qui se déchargent volontiers de leurs rédactions en langues
étrangères sur ces outils providentiels. Car aucune application n'a
réussi le sans-faute. Google traduction arrive en tête du classement,
car c'est l'application qui possède la plus grosse base de données
linguistiques, compte-tenu du nombre des utilisateurs des produits
Google. Néanmoins, le résultat est loin d'être parfait.
J.M. Hardy ne se contente pas de rendre compte de la correction
linguistique des résultats fournis par ces applications. Pour chacune
d'elle, il analyse l'ergonomie de l'espace de travail : taille des
fenêtres de texte, espace consacré aux publicités, accès aux commandes.
Là encore, c'est Google traduction qui obtient les meilleurs résultats,
grâce à son interface dépouillée, sa rapidité et ses fonctions
originales.
Conclusion : on évitera d'accorder toute sa confiance à un seul outil
de traduction automatique... et on se tournera en priorité vers Google
traduction si l'on ne craint pas de voir ensuite ses données
réutilisées par le monstre Google.
Deuxième test. Et le gagnant est...
Néanmoins, en dépit de la rigueur avec laquelle a été réalisé ce test,
dont tous les résultats détaillés sont accessibles, il faut bien
admettre que Google Traduction n'est pas systématiquement meilleur que
les produits concurrents.
Nous nous sommes nous aussi livré à un petit test comparatif, beaucoup
plus bref que celui d'Hardy. Nous avons pour cela utilisé le portail La
Traductrice, qui permet de choisir le service de traduction automatique
que l'on souhaite utiliser. Nous avons donc soumis le même fragment de
texte en anglais à 5 services de traduction automatique et gratuite en
ligne : Google traduction, Yahoo Babel Fish, Reverso, World Lingo et
Linguatec. Nous avons demandé une traduction vers le français.
Le texte source était extrait d'une entrevue avec Mitchell Baker (l'une
des créatrice de Firefox), publiée sur le site Wired. M. Baker y
évoque, dans un langage courant, la situation de monopole dans laquelle
se trouvait Microsoft Explorer avant l'apparition de Firefox :
Consumers were interested in getting to the web and the only way to get
there was through this tool, which was insecure — one of the most risky
pieces of software you could put on your machine! A vector for all
sorts of terrible stuff for which there was no competition. And for
which there was no rational economic model for competition.
On constate d'emblée que la difficulté de traduction ici ne tient pas
au vocabulaire employé, mais à la syntaxe de l'anglais, qui ne peut
évidemment être reproduite telle quelle en français.
Voici les résultats du test, classés par traducteur :
Google traduction :
Les consommateurs étaient intéressés à obtenir sur le Web et la seule
façon d'y arriver était grâce à cet outil, qui était l'insécurité?
l'une des pièces les plus risquées de logiciels que vous pourriez
mettre sur votre machine! Un vecteur de toutes sortes de choses
terribles pour lesquels il n'y avait pas de concurrence. Et pour
laquelle il n'y avait pas de modèle économique rationnel pour la
compétition.
Yahoo Babel Fish :
Les consommateurs étaient intéressés à obtenir au Web et la seule
manière d'y arriver était par cet outil, qui était peu sûr - un des
morceaux de logiciel les plus risqués que vous pourriez mettre dessus
votre machine ! Un vecteur pour toutes les sortes de substance terrible
pour lesquelles il n'y avait aucune concurrence. Et pour ce qui là
n'était aucun modèle raisonnable pour la concurrence.
Reverso :
Les consommateurs se sont intéressés à l'obtention au Web(tissu) et la
seule façon d'arriver il y avait par cet outil, qui était peu sûr - une
des pièces les plus risquées de logiciel vous pourriez mettre votre
machine! Un vecteur pour toutes sortes du truc(de la substance)
épouvantable pour lequel il n'y avait aucune compétition(concurrence).
Et pour lequel il n'y avait aucun modèle économique raisonnable pour la
compétition(concurrence).
World Lingo :
Les consommateurs étaient intéressés à obtenir au Web et la seule
manière d'y arriver était par cet outil, qui était peu sûr - un des
morceaux de logiciel les plus risqués que vous pourriez mettre dessus
votre machine ! Un vecteur pour toutes les sortes de substance terrible
pour lesquelles il n'y avait aucune concurrence. Et pour ce qui là
n'était aucun modèle raisonnable pour la concurrence.
Linguatec :
Les consommateurs s'intéressaient à parvenir à la toile et la seule
façon pour y parvenir était par cet outil, qui était incertain - un de
les la plupart des morceaux risqués de logiciel que vous pourriez
mettre sur votre machine! Un vecteur pour toutes les sortes de truc
terrible pour lequel il n'y avait aucune compétition. Et pour lequel là
aucun modèle économique rationnel, n'était-il pour la compétition.
Le traducteur humain !
En lisant chacune de ces propositions, on comprend certes le sens, mais
on comprend aussi qu'il est impossible d'utiliser la traduction telle
quelle. Le début du texte en particulier, a tenu en échec tous les
traducteurs automatiques : aucun n'a été en mesure de traduire "getting
to the web" par "accéder à la toile". Idéalement, il faudrait extraire
les meilleurs passages de chaque proposition pour recomposer un texte
relativement acceptable. Puis effectuer une très sérieuse correction de
la syntaxe et du vocabulaire, pour que le texte final semble enfin
rédigé en un français courant, comme le texte source qui, rappelons-le,
transcrit une conversation orale.
Mais plutôt que de réaliser toutes ces laborieuses opérations, ne
vaut-il pas mieux traduire soi-même le passage, surtout si l'on doit le
soumettre à un professeur ou aux lecteurs de son site Internet ?
Traducteurs en ligne : le comparateur 2012. Jean-Marc Hardy,
redaction.be, avril 2012.
Illustration : capture d'écran réalisée sur World Lingo.
IFRAME:
https://www.facebook.com/plugins/like.php?app_id=185405388177653&hr
ef=https%3A%2F%2Fcursus.edu%2Farticles%2F24810%2Fquel-est-le-meille
ur-traducteur-automatique-en-ligne-et-gratuit&send=false&layout=but
ton_count&width=450&show_faces=false&action=like&colorscheme=light&
font&height=21
IFRAME:
https://platform.twitter.com/widgets/tweet_button.5069e7f3e4e64c1f4
fb5d33d0b653ff6.fr.html
nal_referer=https%3A%2F%2Fcursus.edu%2Farticles%2F24810%2Fquel-est-
le-meilleur-traducteur-automatique-en-ligne-et-gratuit&size=m&text=
Quel est le meilleur traducteur automatique en ligne et gratuit
?&time=1511276420031&type=share&url=https%3A%2F%2Fcursus.edu%2Farti
cles%2F24810%2Fquel-est-le-meilleur-traducteur-automatique-en-ligne
-et-gratuit
La traduction automatique
va-t-elle faire disparaître la traduction humaine ?
IFRAME: https://www.googletagmanager.com/ns.html?id=GTM-MDNXV82
La traduction automatique va-t-elle faire disparaître la traduction humaine ?
Lorsque l’on évolue loin de l’univers de la traduction, il est très
difficile de percevoir la différence entre toutes les technologies
existantes. Quel avenir pour les traducteurs professionnels dans ce
monde où les buzz words du moment sont “big data” et “intelligence
artificielle” ? Nous vous proposons dans cet article de décrypter les
outils de traduction automatique.
__________________________________________________________________
Accélérer à l’international grâce à la technologie : les technologies
indispensables
__________________________________________________________________
Les bénéfices de la traduction automatique
Les technologies de traduction automatique se sont considérablement
améliorées, notamment grâce au deep learning (une méthode
d’apprentissage automatique par le biais de “neurones”). Les
traductions automatiques ne sont plus uniquement basées sur les
statistiques (probabilité de traduction d’un mot selon l’analyse de
milliers de textes). On pense aux plus grands, Google Translate ou
encore Reverso, qui permettent aujourd’hui de comprendre facilement un
petit texte en langue étrangère en quelques clics. Ils peuvent être
d’une grande aide car gratuits et instantanés, ils fournissent une base
de compréhension de texte.
On notera que la traduction automatique est de plus en plus souvent
intégrée dans les outils de notre quotidien, que cela soit sur
, Google Chrome, TripAdvisor, Skype mais aussi dans des outils
destinés aux professionnels.
L’instantanéité est en effet son atout majeur. Prenons l’exemple des
logiciels utilisés par les services client : l’intégration de Google
Translate permet aux conseillers de comprendre en temps réel le message
qui lui a été adressé et ainsi d’orienter le client vers la bonne
personne (un client insatisfait qui demande à être remboursé, une
demande de renseignement sur un produit, une information sur le
programme fidélité). Cela assure un temps de traitement et ainsi une
qualité de service similaire, et ce quelque soit la langue utilisée par
le client.
La traduction automatique est également idéale dans le cadre d’un
voyage à l’étranger, que cela soit pour gérer les aspects pratiques de
réservation d’un logement, lire les panneaux de signalisation ou encore
déchiffrer la carte d’un restaurant. Nous vous invitons à découvrir
l’appli Android lancée il y a 2 ans, qui permet une traduction visuelle
en temps réel :
IFRAME: https://www.youtube.com/embed/06olHmcJjS0?feature=oembed
Dans un cadre de compréhension globale, pour donner une idée générale
du contexte et du sens d’une phrase ou d’un texte bref et peu complexe,
la traduction automatique est donc parfaitement adaptée. Mais pour le
reste, malgré les progrès technologiques et les efforts de recherche et
développement, elle conserve de grandes limites pour l’appliquer dans
un univers professionnel.
Les écueils de la traduction automatique
Nous ne le redirons jamais assez, la précision et la qualité sont des
aspects clés de la traduction. Trois éléments sont inéluctables : le
contexte mais aussi le sens du paragraphe ou encore le style.
Laissez moi vous raconter une petite anecdote, il y a quelques mois
l’une de mes amies, américaine, publiait une photo de son bébé avec un
grand sourire sur et indiquait en légende “Charlie, cheese!”.
Traduction de : “Charlie, du fromage !”… Nul doute qu’elle
voulait employer le terme “Cheese” pour “Sourire”.
Charlie, Cheese!
Nous sommes dans un univers privé, l’enjeu n’est donc pas conséquent.
Mais lorsqu’il s’agit d’un contexte professionnel, ce genre de
malentendu peut avoir de lourdes conséquences sur la réputation de
votre marque et donc sur votre chiffre d’affaires. Le mot anglais « mug
» peut se traduire par « tasse » en français, mais il peut aussi
signifier « agresser ». Imaginez le contresens qu’il pourrait y avoir
pour un e-commerçant utilisant exclusivement un moteur de traduction
automatique. En tant que français, nous sommes bien placés pour savoir
qu’un mot peut avoir plusieurs sens.
Une enquête Shotfarm de 2016 a montré que 40% des cyberconsommateurs
abandonnent leur panier à cause de mauvaises descriptions des
produits^1 ; par ailleurs, ¼ d’entre eux rendra des articles reçus
s’ils ne sont pas fidèles aux informations de la fiche produit. La
qualité du descriptif produit et la pertinence des traductions est donc
indispensable.
Il y a quelques années, les moteurs de traduction ne traduisaient
qu’une suite de mots, désormais ils sont capables de traduire des
phrases entières. Mais quid de deux phrases à la suite ou encore d’un
paragraphe ? Comme l’explique le directeur de recherche au CNRS
François Yvon dans un article du Monde, “un tas de phénomènes
linguistiques s’étendent sur plusieurs phrases. […] De l’anglais vers
le français, on ne sait pas traduire le “it” en “il” ou “elle”. Car
l’information peut remonter trois ou quatre phrases en arrière. C’est
difficile, car il faut mémoriser des informations à grande distance.”
Dans un texte, les phrases ne sont pas indépendantes les unes des
autres : le style et les informations sont dispersées. Sans
mémorisation de ce genre d’informations, il est donc impossible
d’obtenir une traduction automatique pertinente.
La technologie au service de la traduction humaine
Quand on sait qu’un natif professionnel traduira environ 2.000 mots par
jour, la traduction automatique est incontestablement la meilleure en
terme de réactivité. Mais vous l’aurez compris, il parait très risqué
de confier sa traduction professionnelle uniquement à un robot : les
coûts d’une mauvaise traduction, parfois invisibles, sont pourtant bien
réels : taux de retour plus élevé (pour le e-commerce), mauvaise
réputation, non professionnalisme, insatisfaction des clients…
La traduction humaine est certes plus coûteuse que la traduction
automatique, mais sa qualité est infiniment supérieure, et l’impact
d’une bonne traduction est considérable : meilleur taux de conversion,
fidélisation des clients, meilleur référencement naturel sur les
différents marchés…
Toutefois, selon nous, il n’y a pas de guerre entre la traduction
automatique et la traduction humaine. Elles sont tout simplement
complémentaires : la traduction automatique permet de réduire
drastiquement le temps passé sur une traduction, et donc d’optimiser
les coûts. Elle peut fournir une base aux traducteurs professionnels,
qui pourront ainsi retravailler le texte, le reformuler, le styliser,
et surtout l’adapter au contexte et aux consommateurs des pays
concernés.
^1
http://www.eweek.com/small-business/online-shoppers-blanch-at-inaccurate-prod
uct-descriptions
Grâce à TextMaster, vous disposez de la puissance d’un réseau de
traducteurs experts certifiés et des meilleurs outils d’aide à la
traduction pour vous garantir la meilleure réactivité et les meilleurs
tarifs tout en conservant le plus haut niveau de qualité. Demandez
votre devis de traduction en cliquant-ici.
L'intelligence artificielle au service de la traduction automatique
L'intelligence artificielle au service de la traduction automatique
Source image: Google
Pour se rapprocher de la perfection, les outils de traduction
automatique incorporent à leurs algorithmes des mécanismes de plus en
plus proches de la réflexion humaine.
Longtemps, les résultats des outils de traduction automatique étaient
plus drôles qu'utiles. Phrase incohérente, contresens et autres
approximations ne permettaient pas une traduction fluide. Mais les
progrès rapides de l'intelligence artificielle sont en train de changer
la donne. Disponible en 103 langues, soit 99% de celles parlées dans le
monde, Google Translate est le fer de lance de cette révolution.
Utilisé par 500 millions d'internautes chaque mois, le service fête
aujourd'hui ses dix ans et entre dans une ère nouvelle. Depuis
mi-novembre, Google Neural Machine Translation (GNMT) a intégré à son
application, pour réduire les erreurs de traduction à un taux variant
entre 55 % et 85 %. Cette technologie basée sur les réseaux neuronaux
informatiques est conçue pour répliquer le cerveau humain. Il ne
considère plus les phrases mot à mot mais dans leur globalité, pour les
traduire le plus fidèlement possible.
Responsable monde de Google Translate, Barak Turovsky voit en cette
innovation la troisième phase de rupture pour la traduction
automatique. Son équipe, basée à Mountain View (Californie), est
constituée d'une cinquantaine d'ingénieurs et chercheurs qui
collaborent avec l'équipe Google Brain de Zurich. «En dix ans, nous
sommes progressivement passés de la traduction mot-à-mot, utile mais
hachée et imprécise, à une traduction basée sur des fragments de
phrases, le Phrase-Based Machine Translation (PNMT). Le Google Neural
Machine Translation (GNMT) permet aujourd'hui une approche plus globale
de la traduction», explique-t-il au Figaro. «La précision de celles
réalisées grâce à cette technologie se rapproche progressivement de
celle des humains.»
Neuf langues sont pour le moment concernées par le GNMT: l'anglais, le
français, l'allemand, l'espagnol, le portugais, le chinois, le
japonais, le coréen, et le turc. L'outil est donc utile pour plus d'un
tiers de la population mondiale, et 35% des requêtes traitées par
Google Translate.
Des règles linguistiques auto-apprises
Si le passage de Google au GNMT a été remarqué, le groupe n'est pas le
seul à se pencher sur les promesses des réseaux neuronaux. «Un grand
nombre d'entreprises spécialisées dans la traduction développent
actuellement un outil de Neural Machine Translation», indique François
Massemin, vice-président des Opérations de SYSTRAN, une entreprise
française qui lance un moteur traduction neuronal avec plus de trente
langues. À chacun sa spécialité néanmoins. Le moteur de SYSTRAN
privilégie la spécialisation. «Nous alimentons nos algorithmes de la
terminologie des domaines d'activité de nos clients, qu'il s'agisse de
l'automobile, de l'industrie, de la chimie ou encore du tourisme. Ils
s'entraînent et auto-apprennent à partir de corpus spécifiques et des
segments de phrases préalablement traduits par un humain.» Parmi les
clients de SYSTRAN, des grandes entreprises, dont PSA, Adobe, Symantec
ou la Société Générale, mais aussi des services de renseignement avides
de connaître la teneur des messages échangés en ligne.
Google et ses concurrents se gardent bien de livrer la recette de leurs
moteurs neuronaux. «Une nouvelle génération de puces [les TPU, ndlr] et
des algorithmes sont combinés pour les faire fonctionner», détaille à
peine Barak Turovsky. «Ces puces jouent un grand rôle dans la vitesse
de traduction. Au lancement de Google Translate par moteurs neuronaux,
celle-ci était 100 fois plus lente qu'aujourd'hui», spécifie-t-il.
Si les technologies d'analyse ont changé, l'approche des données
recueillies sur Internet pour alimenter les algorithmes est toujours la
même. «Même il y a dix ans, au lancement de Google Translate, nos
algorithmes s'alimentaient de textes traduits trouvés sur Internet, en
parcourant le Web. Parmi les documents analysés, des livres mais aussi
des articles ou le contenu des déclarations des Nations Unies»,
rapporte Barak Turovsky.
IFRAME: https://www.youtube.com/embed/_GdSC1Z1Kzs
De ces textes sont déduits des modèles statistiques à répliquer lors
d'une traduction. Les réseaux neuronaux ont cela de particulier qu'ils
pourront apprendre par eux-mêmes. Autre innovation majeure, ils
pourront bientôt traduire une langue à partir d'autres. «Imaginons que
l'on dispose de données entre l'anglais et le japonais, entre l'anglais
et le coréen mais pas entre le coréen et le japonais. Le modèle
multi-langues nous permettra, une fois lancé, de faire une traduction
directe entre le coréen et le japonais, alors même que l'algorithme n'a
pas été entraîné à traduire entre ces deux langues.»
En d'autres termes, Google crée une autre langue, baptisée à de
nombreuses reprises «interlangue», pour traduire deux langues sans
qu'on lui ait appris. Ce concept est aussi appelé «zero-shot». Une
avancée que les chercheurs qualifient eux-mêmes de «surprenante» et qui
évite l'intégration laborieuse de données.
De nouvelles expériences de traduction
Considérables, les progrès de Google Translate ces dix dernières années
n'empêchent pas, à l'occasion, l'occurrence d'erreurs de traduction,
parfois étonnantes. Début 2016, certaines traductions de l'ukrainien
vers le russe donnaient pour résultat le mot «Mordor» pour Ukraine, ou
«occupant» pour russe, probablement sous le coup d'une manipulation
humaine.
Pour ces cinq prochaines années, Barak Turovsky envisage trois pistes
essentielles de travail: conquérir davantage d'utilisateurs, développer
de nouvelles expériences de traduction, à l'image de WordLense qui
traduit automatiquement le contenu texte de photos, ou de Tap to
Translate, qui s'intègre aux applications pour accélérer le passage
d'une langue à l'autre lors de discussions entre étrangers. Mais aussi,
continuer à améliorer la qualité de la traduction.
Pour ce faire, il considère la contribution humaine permise par les
outils de Google Translate «plus utile que jamais». «Il y a deux ans,
certains ressortissants du Kirghizistan ont réclamé l'intégration du
kirghize à Google Translate, mais nous n'avions pas assez de données
sur cette langue. Nous leur avons indiqué qu'ils devraient pour cela
réaliser la traduction et la validation de deux millions de phrases, ce
qui semblait impossible. Mais le message a été repris par le
gouvernement et, très rapidement, nous avons pu dénombrer 200.000
traductions par jour. Leur langue a finalement été rendue disponible.»
IFRAME: https://www.youtube.com/embed/4xtEp55MKRE
L'intérêt de SYSTRAN pour les langues les plus rares est restreint à
des pratiques de surveillance. «Nous sommes attentifs au développement
de langues telles que l'arabizi et le rusizi», notre François Massemin.
«Elles concernent ceux qui parlent l'arabe et le russe mais ne sont pas
en mesure de l'écrire en alphabet arabe ou cyrillique. Ces langues
intéressent beaucoup les services secrets.» À terme, la comparaison
entre une traduction humaine et automatique relèvera essentiellement de
la qualité du style.
traduction automatique
Innovations Questions & débats
L’intelligence artificielle au service de la traduction automatique de
contenus
09/06/201709/06/2017 Rédaction 3694 Views Google Traduction,
intelligence artificielle, Lingua et Machina, Media Do, nouvelles
technologies, réseaux neuronaux, Systran, traduction automatique
La traduction automatique est un secteur en constante progression,
soutenue par le développement de l’intelligence artificielle. Une
technologie en particulier semble être appelée à connaître un
développement important à l’avenir : la traduction à partir de réseaux
neuronaux. Une firme japonaise, Media Do, a d’ailleurs récemment mis
cette technologie en pratique. Lettres Numériques vous embarque dans un
tour d’horizon des tendances existantes et des progrès en cours.
Il existe de nombreux outils de traduction automatique, sur lesquels
plusieurs entreprises travaillent, notamment les géants Microsoft et
Google mais également des entreprises françaises comme Systran (dont
vous pouvez déjà admirer les progrès via la version bêta de son
logiciel) et Lingua et Machina. Si les deux premières s’adressent avant
tout aux utilisateurs lambda, Systran vise plutôt les entreprises,
tandis que Lingua et Machina se consacre principalement à la traduction
de contenus complexes dans le domaine de la recherche. Un communiqué
récemment publié sur le site de Lingua et Machina, qui comprend
notamment une interview d’Étienne Monneret, son Chef de Projets et
Développements Informatiques, nous éclaire sur le sujet.
Lingua et Machina
Trois modèles de traduction
Les modèles de traduction automatique peuvent être classés selon trois
approches.
La traduction à base de règles fonctionne grâce à l’application de
règles à divers niveaux d’analyse linguistique (lexicale, syntaxique et
grammaticale). Elle intègre la gestion d’un très grand nombre de cas
particuliers et d’exceptions. Les textes ainsi produits sont cohérents,
mais finalement peu adaptés à des éléments trop spécialisés.
La traduction statistique se base quant à elle sur une analyse
statistique d’un grand volume d’exemples déjà traduits. Elle identifie
les transformations de groupes de mots, d’une langue vers une autre,
pour reproduire celles estimées les plus probables sur les nouvelles
phrases à traduire. La traduction par ce modèle est adaptée à des
contenus spécifiques, mais s’avère peu fluide.
Enfin, la traduction neuronale (ou neurale) repose sur des algorithmes
neuronaux. L’idée principale de ce troisième système est de ne plus
fonctionner par mot ou expression, comme c’est le cas pour les deux
autres modes de traduction, mais de considérer chaque phrase comme un
bloc à traduire. La formulation des phrases ainsi traduites est plus
naturelle, et les erreurs de grammaire et de syntaxe sont bien moins
courantes. Concrètement, pour déterminer le sens de la phrase, l’outil
passe par chaque mot, puis en pondère le sens pour choisir la
traduction la plus juste et les réorganiser pour produire une phrase
cohérente dans la langue désirée. Le moteur utilise ainsi
l’intelligence artificielle et apprend, toujours à partir d’un grand
volume d’exemples, à traduire par le biais d’un réseau neuronal.
De nombreux avantages…
C’est ce dernier modèle de traduction automatique que prône la société
Lingua et Machina. D’après Étienne Monneret, la firme a très vite perçu
l’intérêt de cette approche. « Grâce à la complémentarité de nos
technologies, les performances de la traduction automatique
s’améliorent à mesure qu’elle est alimentée avec de nouveaux contenus
[…]. Plus le nombre de traductions réalisées augmente, plus la qualité
et la fluidité se rapprochent de la qualité d’une traduction humaine. »
L’autre avantage de cette technologie réside dans les économies
substantielles en termes de coût et de temps : « un traducteur
professionnel peut travailler jusqu’à deux à trois fois plus vite en
maintenant une haute qualité de traduction. »
Google_traduction_neuronale La traduction neuronale est aussi le modèle
plébiscité par Google, Microsoft et Systran. La première étant
convaincue que son avenir est dans l’intelligence artificielle, elle
cherche à intégrer cette technologie dans beaucoup de ses projets.
C’est ainsi que fin 2016, Google annonçait dans un communiqué l’usage
d’un système de réseau neuronal pour la traduction de huit langues vers
et depuis l’anglais dans Google Traduction.
… mais une technologie encore balbutiante
Cependant, tout n’est pas encore parfait, et Google le reconnaît, comme
le rapporte le site Nextinpact. « Google Neural Machine Translation
(GNMT) est toujours capable d’erreurs importantes qu’un traducteur
humain ne ferait jamais, comme oublier des mots, mal traduire des noms
propres ou des mots inhabituels, ou encore traduire une phrase de
manière isolée plutôt qu’en l’incluant dans le contexte du paragraphe
ou de la page ».
Du côté de Microsoft, la technologie et ses résultats sont également
qualifiés de balbutiants, même si la firme de Redmond assure que les
réseaux neuronaux fournissent une qualité beaucoup plus élevée ainsi
qu’une production plus humaine que les autres technologies de
traduction, comme le relaie le site zdnet.
Une récente mise en pratique au Japon
Media Do Deux entreprises basées à Tokyo sont également spécialisées
dans la traduction de contenus par l’intelligence artificielle :
l’Internet Research Institute et Ai Squared. C’est donc via un
partenariat avec ces deux firmes que le distributeur d’ebooks japonais
Media Do se lance dans la traduction automatique de contenus. D’ici la
fin de l’année, la firme nippone prévoit ainsi la mise en place sur sa
librairie numérique d’un service de résumé automatique, en langue
japonaise. L’année prochaine, ce résumé pourra être traduit
automatiquement en anglais. L’objectif à terme est la traduction
automatique d’ebooks entiers du japonais vers l’anglais.
En proposant ces nouveaux services, Media Do espère élargir son marché
à l’international et dynamiser le marché du livre numérique au Japon,
où l’édition traditionnelle ne se porte pas très bien.
Les progrès de l’intelligence artificielle permettent un développement
dans de nombreux secteurs, et la traduction automatique ne fait pas
exception, comme en témoigne l’enthousiasme des différentes entreprises
qui y travaillent. La traduction neuronale semble ainsi promise à un
bel avenir. De multiples usages sont en effet envisageables pour cette
technologie, on imagine par exemple l’outil très avantageux qu’elle
pourrait constituer pour le monde de l’édition, comme l’illustre le cas
de Media Do.
Le développement de l’intelligence artificielle ne manque par ailleurs
pas de soulever des questions quant à la place toujours plus réduite
qu’elle accorde à l’humain. Pour l’heure, la supervision de l’homme est
toujours nécessaire mais la traduction automatique pourrait-elle un
jour remplacer le travail d’un traducteur humain ? Au-delà des progrès
techniques de ces technologies, l’importance d’une réflexion sur ces
interrogations éthiques pourrait donc se faire sentir.
Peut-on se fier à la traduction automatique ?
Peut-on se fier à la traduction automatique ?
09/02/18
fiabilite traduction automatique
Il existe plusieurs façons de traduire d’une langue à une autre. Vous
pouvez utiliser les services d’un traducteur professionnel, ce qui vous
permettra d’obtenir des traductions précises, ou vous pouvez utiliser
des outils technologiques, qui vous donneront des résultats…un peu
moins précis.
Petit papa quoi ?
Récemment dans l’émission de télévision The Tonight Show Starring Jimmy
Fallon, Jimmy et Rebel Wilson ont utilisé Google Translate pour
traduire quelques-unes des chansons de Noël les plus emblématiques. Le
résultat ? Une séquence hilarante et un exemple concret des limites de
la technologie.
+ « Deck the Halls » (Falalalala en version française,
littéralement « Décorez les murs ») est devenu « The Homes are
Covered » (« Les maisons sont couvertes »).
+ « Jingle Bells » (Vive le vent en version française,
littéralement « Tintez clochettes ») s’est tout simplement
transformé en « Bells Make Sounds » (« Les cloches font du
bruit »).
+ « Winter Wonderland » (littéralement « Paradis hivernal ») a
pris une tournure sinistre et est devenu « I Ran Through the
Land of Cold Unknowns » (« J’ai couru à travers le pays du
froid inconnu »).
On peut s’amuser des erreurs commises lors d’une traduction « brute »
de chants de Noël. En revanche, il n’y a pas matière à rire quand les
enjeux sont plus importants et que la précision est cruciale, comme
pour les secteurs pharmaceutiques et juridiques.
Répondre aux besoins des consommateurs
Air New Zealand a récemment annoncé qu’elle serait l’une des premières
entreprises internationales à utiliser les écouteurs Bluetooth sans fil
Google Pixel Buds pour faciliter le service à la clientèle et la
traduction. Le directeur général d’Air New Zealand estime que ce type
de produit peut fournir « un service rapide et personnalisé » aux
clients dans un « monde de plus en plus numérique. » Cela semble être
un raisonnement solide et une excellente idée, mais dans quelle mesure
ce service est-il véritablement rapide et personnalisé ?
Pas si vite
Dans l’ensemble, beaucoup d’utilisateurs sont satisfaits des
performances des Google Pixel Buds. Amanda Lee, en revanche, a exprimé
son mécontentement face au temps de latence requis pour la traduction :
« plusieurs secondes étaient parfois nécessaires » pour recevoir la
traduction, entraînant des « pauses gênantes durant les
conversations. » Il convient également de noter que la terminologie des
dispositifs de traduction n’est pas systématiquement à jour en termes
de vocabulaire : traduit du chinois vers l’anglais, « bubble tea »
s’est transformé en « boisson explosive. »
Google Pixel Buds
Ce que l’humanité a de meilleur à offrir
Selon Business Insider, traduire d’une langue vers l’anglais offre
parfois des résultats plus précis que traduire de l’anglais vers une
autre langue. L’anglais étant la langue la plus parlée au monde, il est
logique que les résultats soient de meilleure qualité. On peut y voir
un signe révélateur de l’importance des traducteurs professionnels, qui
maîtrisent davantage les aspects culturels et les nuances linguistiques
de leur propre langue et peuvent ainsi fournir une traduction plus
précise et naturelle.
Un service personnalisé et humain
Si les outils technologiques peuvent aider deux personnes ne parlant
pas la même langue à communiquer, rien ne vaut l’expertise humaine.
Chez ITC, nous travaillons avec les outils assistés par ordinateur les
plus récents et perfectionnés, mais nous comptons sur nos traducteurs
humains pour fournir le meilleur service possible. Non seulement nos
traducteurs maîtrisent parfaitement leurs langues de travail, mais ce
sont en plus des experts dans leur domaine de spécialisation. Que vous
ayez besoin d’un traducteur coréen spécialisé dans les ressources
humaines ou d’un professionnel du tourisme parlant couramment le
portugais du Brésil, nous pouvons vous aider.
Vous avez besoin de traductions? Contactez ITC Traductions :
#Slate.fr
Life
La traduction automatique n'est toujours pas d'actualité
Temps de lecture : 9 min
Konstantin Kakaes — 26 mai 2012 à 7h01 — mis à jour le 30 mai 2012 à
7h01
Pour que la traduction automatique devienne utilisable, il faut enseigner aux
machines la signification des mots. Ce qui n’est pas une mince affaire.
Une ancienne machine à écrire / Nicole Lee via FlickrCC Licence by
Une ancienne machine à écrire / Nicole Lee via FlickrCC Licence by
Temps de lecture: 9 min
Il n’y a pas très longtemps, au huitième étage d’un immeuble de bureau
d’Arlington, en Virginie, Rachael, le doigt posé sur l’écran tactile
d’un Dell Streak, demanda à Aziz s’il connaissait l’ancien du village.
La petite tablette émit des bips comme si elle imitait R2-D2 et énonça
une phrase qui ressemblait à: «Aya tai ahili che dev kali mousha.» Aziz
répondit une phrase en pachtoune que le Streak traduisit d’un ton
monocorde par «Oui, je connais.»
Rachael demanda: «Pourriez-vous me le présenter?» mais Aziz ne comprit
pas la traduction de la machine (alors qu’il parle anglais). Rachael
reposa donc la question: «Pouvez-vous me présenter l’ancien du
village?» Cette fois, l’opération aboutit, sans réussir tout à fait.
Aziz, par le biais de la machine, répondit: «Oui, je peux me présenter
à vous.» Aziz, qui doit avoir la quarantaine et portait un pull sans
manche, n’était pas l’ancien du village.
Le logiciel utilisé sur la tablette était la version la plus aboutie de
TransTac, projet développé depuis cinq ans par la Defense Advanced
Research Projects Agency (DARPA), visant à créer un système de
traduction de la parole (par opposition aux systèmes basés sur des
textes), et qui s’est achevé l’année dernière.
Mari Maeda, manager de la DARPA qui a exécuté ce programme, explique
qu’au final, TransTac atteint un taux de précision tournant autour de
80%: suffisamment pour que cela soit intéressant, mais pas assez pour
être utile. Quelques dizaines d’utilisateurs l’ont essayé en Irak et en
Afghanistan—outre le pachtoune, ce programme s’appliquait aussi à
l’arabe et au dari—mais personne n’a été impressionné au point de
vouloir le garder.
Le vieux rêve de la traduction de la parole humaine par les ordinateurs
Cela ne signifie pas pour autant que TransTac soit un échec. Le
logiciel a entrepris une tâche très difficile: faire en sorte qu’un
ordinateur écoute quelqu’un parler dans une langue, traduise ce
discours dans une autre langue et le prononce à haute voix.
Le rêve d’utiliser des ordinateurs pour traduire la parole humaine
remonte aux tout premiers jours de l’informatique, quand les
ordinateurs utilisaient encore des tubes à vide. Il s’est toujours
avéré insaisissable.
La DARPA n’est naturellement pas la seule organisation à financer la
recherche sur ce que les informaticiens appellent la «traduction
automatique» (cela comprend à la fois des systèmes de
traduction/restitution de parole comme TransTac et des systèmes qui
traduisent des textes écrits, problème plus simple sous certains
aspects bien que les principales difficultés soient les mêmes dans les
deux cas).
Cette agence a cependant joué un rôle central. Le département de la
Défense a dépensé presque 700 millions de dollars pour un seul contrat
de traduction (pour des interprètes humains, principalement en
Afghanistan) en une année, par conséquent les plus de 80 millions de
dollars qu’il consacre à BOLT, le programme qui succède à TransTac,
dans l’espoir d’économiser sur le budget interprètes à l’avenir, est
une relativement bonne affaire.
Le problème, la qualité de la traduction
La question centrale au cœur de la plupart de ces projets est la
suivante: comment évaluer la qualité d’une traduction? Même les humains
peinent à comparer les traductions différentes d’un même texte. Cela
rend le défi d’automatisation des évaluations encore plus difficile à
relever. Et si vous ne savez ou ne pouvez évaluer votre niveau, il est
difficile de progresser.
Pendant des décennies, les chercheurs ont été incapables de programmer
les ordinateurs pour qu’ils produisent des traductions utilisables. Les
soldats devaient se fier à des guides de conversation proposant la
prononciation phonétique des phrases («VO ist NAWR-den?» est la phrase
qu’une brochure de 1943 du département de la Guerre recommandait aux GI
pour demander «Où se trouve le nord?» en allemand).
Le «Phrasealator,» que l’armée américaine a commencé à utiliser en
2004, n’était pas tellement plus avancé—il s’agissait essentiellement
d’un guide de conversation informatisé. Mais ces dernières années la
traduction automatique statistique (TAS) s’est beaucoup répandue,
technique qui a énormément amélioré la qualité des traductions.
Trouver l’algorithme de la traduction
Plutôt que d’essayer de coder explicitement des règles de traduction
d’une langue à l’autre, le but de la TAS est de faire en sorte que des
algorithmes déduisent ces règles à partir de bases de données
existantes constituées de textes traduits.
Les plus abondantes bases de données de ce genre sont celles des textes
dont la loi exige qu’ils soient traduits en plusieurs langues, comme
les rapports de l’Union européenne, traduits par des humains dans les
23 langues officielles de l’UE.
Et quand ces bases de données ne sont pas déjà disponibles, il faut les
constituer soi-même. Pour TransTac, la DARPA l’a fait en enregistrant
des sketches entre une cinquantaine de soldats et marines américains et
une cinquantaine de locuteurs arabophones. Les participants ont mis en
scène divers scénarios, comme la situation à un check-point ou la
fouille d’une maison (en Californie, ceci dit).
De nouveaux modèles à créer
La principale difficulté pour la TAS est de trouver comment utiliser
l’information contenue dans ces «corpus parallèles» pour construire des
modèles de la manière dont fonctionne chaque langue, et de trouver
comment les langues correspondent entre elles.
Un modèle pour une langue donnée— l’anglais par exemple—sert à estimer
le degré de probabilité pour qu’une suite de mots constitue une phrase
valable («logique traduction ardoise verte» par exemple, est une suite
de mot improbable).
Les programmes de TAS établissent ensuite des corrélations entre les
modèles de chaque langue. Généralement phrase par phrase, le programme
traduit en trouvant des mots dans la langue d’arrivée qui ont à la fois
une cohérence grammaticale ensemble et qui sont susceptible de bien
correspondre avec leurs équivalents de la langue de départ.
Pour ce faire, les modèles doivent être capables d’aligner correctement
les phrases. Or, il n’y a pas nécessairement une correspondance ligne
par ligne entre deux langues différentes. Si une des phrases vous
déconcerte et que vous alignez systématiquement mal toutes celles qui
suivent, vous obtenez des données inutilisables.
Et il y a le problème de relier les mots de la langue source avec ceux
de la langue cible—les mots non plus ne correspondent pas un à un, et
l’ordre des mots dans la phrase peut varier de façon substantielle
d’une langue à l’autre.
Mais l’idée est que si vous enfournez suffisamment de données, le
«bruit» de l’imperfection de l’alignement va diminuer par rapport au
signal de corrélations entre la même idée exprimée en différentes
langues.
Dépasser les modèles statistiques
L’approche statistique a transformé le domaine. Pourtant, Bonnie Dorr,
responsable de programme pour
BOLT, explique que la DARPA est
aujourd’hui «très déterminée à dépasser les modèles statistiques.» la
raison est qu’à mesure que l’on procure de plus en plus de données
parallèles aux algorithmes, «les retours que l’on obtient réduisent. Le
rendement devient moins important, et les résultats atteignent un
plateau, même lorsqu’on augmente le volume de données.»
Au départ, cette «autre chose,» c’était la syntaxe: il fallait tâcher
de faire l’analyse grammaticale de la phrase pour déterminer la
fonction de chaque mot, puis tenter de faire correspondre les verbes et
les noms entre eux.
Cela permet de gérer des problèmes comme des ordres de mots
radicalement différents. Incorporer des informations syntaxiques dans
des modèles statistiques semble avoir contribué à améliorer les
performances. Mais cela n’a pas aidé les chercheurs à résoudre la
question de base: est-ce une bonne traduction?
L’évaluation des programmes de traduction
Aujourd’hui, la meilleure façon d’évaluer les programmes de traduction
automatique est d’avoir recours à une métrique conçue par IBM. Cette
métrique, appelée BLEU, n’est pas très performante mais elle est utile
car elle est cohérente.
BLEU fonctionne en comparant la traduction d’un texte particulier avec
une traduction de référence du même texte, faite par un humain, et en
établissant leur «proximité.»
Elle le fait en fournissant un résultat composite basé sur le nombre de
mots de la traduction automatique que l’on retrouve dans la traduction
humaine, sur le nombre de syntagmes de deux mots qui correspondent, de
trois mots, de quatre mots… (les syntagmes longs correspondant dans les
deux traductions sont très rares, voire non-existants).
Mais comme l'écrit Philip Koehn, éminent chercheur en traduction
automatique, personne ne sait ce que signifient les résultats fournis
par BLEU, et les bonnes traductions humaines obtiennent souvent des
résultats à peine meilleurs au test BLEU que les traductions
automatiques.
Koehn donne l’exemple d’une phrase traduite du chinois. Laquelle est la
meilleure: «Israël est chargé de la sécurité dans cet aéroport» ou «Les
autorités israéliennes sont responsables de la sécurité aéroportuaire»?
Rester fidèle au sens
Ce que l’on cherche à savoir, c’est si la traduction a su rendre le
sens du texte, pas si elle a utilisé les mêmes mots. La DARPA espère
pouvoir créer «une métrique d’évaluation sémantique» qui mesure le
degré de fidélité au sens.
Une approche, déjà adoptée par la DARPA selon Dorr, consiste à avoir
recours à un humain pour comparer les significations et déterminer
combien de mots de la traduction automatique doivent être changés pour
rejoindre le sens d’une traduction de référence.
Mais ce genre d’intervention humaine est longue et onéreuse. Les
métriques d’évaluation sémantique de ce type peuvent être utilisées
pour vous donner une idée de vos progrès à long terme, mais elles ne
servent pas à grand-chose pour modifier les paramètres de votre modèle.
Pour ça, vous devez pouvoir capter le sens de façon automatique.
Comprendre les phrases traduites
Le sens est naturellement une cible mouvante, mais ce n’est pas une
proposition dans laquelle tout est blanc ou tout est noir. Un programme
n’est pas obligé d’appréhender toutes les strates de sens contenues
dans une phrase comme «Je vous aime» (et il en est d’ailleurs
incapable).
Il peut seulement aider à déterminer que «aimer» n’est pas juste un
verbe mais un mot émotionnellement chargé, et que «vous» n’est pas
juste le complément de la phrase mais également la personne aimée.
Cette sorte de connaissance sémantique superficielle n’est pas
intéressante si vous voulez connaître la signification à un niveau plus
profond. Mais c’est assez pour être potentiellement utile. Rattacher ce
genre de signifiants à des mots ou à des suites de mots est appelé
«étiquetage sémantique.»
Ce type d’étiquetage est réalisé manuellement depuis longtemps.
FrameNe, l’une des plus anciennes bases de données sémantiques, conçue
par l’University of California-Berkeley, existe depuis 1997—elle compte
aujourd’hui 170 000 phrases annotées à la main, comme «I’ll get even
with you for this! [Je te revaudrai ça!]»
Mais 170 000 phrase est un groupe de données très modeste comparé aux
bases de données de textes parallèles et non étiquetés qui existent.
L’objectif des initiatives de traduction sémantique actuelles est de
procéder à ce genre d’étiquetage automatiquement puis d’intégrer les
résultats dans des modèles statistiques.
Comment coder l’ambiguïté?
L’étiquetage sémantique automatique est d’une évidente difficulté. Il
vous faut gérer certaines choses comme la portée des quantificateurs
imprécis. Prenez la phrase «Every man admires some woman. [Tout homme
admire une femme]».
Il y a ici deux significations possibles. La première est qu’il existe
une femme, une seule, admirée par tous les hommes. (Et cela vous donne
une idée précise de l’époque de ma puberté si je vous dis que le
premier nom qui me vient à l’esprit est celui de Cindy Crawford).
La deuxième est que tous les hommes admirent au moins une femme. Mais
comment dites-vous cela en arabe? Idéalement, vous cherchez un syntagme
comportant le même niveau d’ambiguïté.
L’objet de l’approche sémantique consiste à essayer de coder
l’ambiguïté elle-même d’abord, plutôt que de tenter de passer
directement de l’anglais à l’arabe (ou à quelque autre langue cible).
Ensuite, le contexte plus large pourra aider votre algorithme à choisir
comment rendre la phrase dans la langue d’arrivée.
Juger la transmission du sens
Une équipe de l’University of Colorado, financée par la DARPA, a
construit un étiqueteur sémantique en open source appelé ClearTK. Elle
évoque des difficultés, comme celle présentée par la phrase: «The coach
for Manchester United states that his team will win [l’entraîneur de
Manchester United déclare que son équipe va gagner].»
Dans cet exemple, la suite de mots «United States» n’a pas son sens
habituel. Faire en sorte qu’un programme le reconnaisse et identifie
les autres bizarreries de langue est assez délicat.
La difficulté de savoir si une traduction est bonne n’est pas seulement
technique: elle est fondamentale. Le seul moyen durable de juger de la
fidélité d’une traduction est de décider si le sens est transmis. Si
vous réussissez à obtenir un algorithme capable d’en juger, alors vous
avez résolu un problème vraiment très ardu.
Quand un système de traduction automatique fonctionnera efficacement,
si c’est un jour possible, quand il «comprendra le sens,» alors ses
rouages seront un mystère pour ses créateurs, presque autant qu’ils le
sont pour l’ancien du village.
Cet article est extrait de Future Tense, une collaboration entre
l’Arizona State University, la New America Foundation et Slate. Future
Tense explore la manière dont les nouvelles technologies affectent la
société, la politique et la culture. Pour en savoir plus, voyez le blog
de Future Tense et sa page d'accueil. Vous pouvez aussi les suivre sur
.
Konstantin Kakaes
Traduit par Bérengère Viennot
#Traduc.com » Flux Traduc.com » Flux des commentaires Traduc.com »
Traduction automatique vs traduction humaine : qui est le meilleur ?
Flux des commentaires alternate alternate
Traduction automatique vs traduction humaine : qui est le meilleur ?
__________________________________________________________________
La traduction prend de plus en plus de sens sur Internet au vu de la
profusion de contenus qui naissent chaque jour. Au cours de cette
dernière décennie, le contenu digital s’est fortement développé grâce à
l’intérêt des internautes et aux entreprises cherchant à répondre à
cet intérêt.
Le web est devenu un territoire d’expression pour tous, où de nombreux
marché se créent, qu’ils soient économiques, informatif ou éducatif.
Face à cette croissance, de nombreux acteurs du numérique qui
souhaitent se développer sur de nouveaux territoires géographiques et
culturels ont besoin d’exploiter leurs contenus existants.
Pour ce faire, la traduction est la solution qu’il faut exploiter. Mais
alors, Comment faire pour traduire ses contenus ? Faut-il faire
confiance à l’Humain ou davantage aux machines ? Balayons les
différentes possibilités.
Nouveau
Plateforme web de traduction professionnelle
Commandez vos traductions à nos traducteurs freelances
Voir la plateforme
Différentes solutions existent pour la traduction
Pour les besoins en traduction, de nombreuses solutions s’offrent à
vous.
Le choix de “la machine”
Vous pouvez faire le choix de travailler avec un logiciel capable de
vous assister dans la traduction de vos contenus.
Dans un précédent article, nous évoquions par exemple les différents
logiciels de traduction existant sur Internet, tels que Reverso ou
Google Traduction. Rapides et efficients, ils vous permettent de
traduire rapidement un terme ou une phrase.
Nous pouvons aussi retrouver des applications mobile qui vont permettre
d’obtenir une traduction instantanée à tout moment de la journée.
Ces différents logiciels de traduction machine sont amenés à évoluer et
à de plus en plus apprendre et contextualiser leurs traductions.
Car ces traducteurs “mécaniques” possèdent le désavantage de ne pas
comprendre le contexte de votre traduction et de vos contenus. Il peut
ainsi être compliqué de traduire un texte dans son ensemble, un site
web ou encore une brochure, tout en relatant les idées et les
subtilités du contenu.
Le choix de “l’humain”
Pour ce faire, le choix de l’humain peut permettre de favoriser le
contexte et la compréhension du texte au global.
Outre le contact humain, plus chaleureux que l’échange avec une
machine, vous pouvez travailler avec un traducteur indépendant ou une
plateforme de traduction comme Traduc.com.
Ceci permet de bénéficier d’un haut niveau de conseil dans sa
traduction et d’une adaptation maximale à son besoin spécifique.
Les avantages de la traduction machine
Évoquons les avantages et inconvénients de la traduction machine de
façon simple et condensée.
Les avantages de la traduction machine
La traduction machine offre divers avantages de par sa “nature
d’automate” :
Nouveau
Plateforme web de traduction professionnelle
Commandez vos traductions à nos traducteurs freelances
Voir la plateforme
Elle est plus rapide qu’un traducteur humain car capable de traiter
instantanément une requête.
Elle est moins chère, en général, qu’un traducteur humain, et plus
facilement accessible (et donc rapide également). On peut y accéder
en permanence, et avoir simplement accès à divers langages de
traduction en un seul clic.
Elle permet de conserver une forme d’objectivité par rapport à
l’être humain. En effet, elle traduira une phrase toujours de la
même façon, sans l’interpréter par rapport à son prisme personnel.
Globalement plus économique et efficiente qu’un traducteur humain, la
machine conserve certaines limites dans… sa qualité !
En effet, si quantitativement elle est capable de traiter énormément de
requêtes, elle reste limitée, à l’heure actuelle, dans la qualité de sa
traduction. Une traduction effectuée par un humain sera plus fidèle à
la traduction d’origine, mieux intégrée dans le contexte et même dans
les tendances communicationnelles du pays en question.
Observons plus en détail les avantages de la traduction humaine.
Les avantages de la traduction humaine
Comme nous l’évoquons depuis le début de l’article, l’avantage
principal dans la traduction humaine réside dans son adaptabilité et sa
qualité.
L’humain est capable de comprendre le contexte exact de la mission de
traduction, pour qui celle-ci doit être réalisée et de quelle façon
elle doit être perçue.
Là où une machine ne verra qu’un ensemble de termes à traduire, le
traducteur humain verra une façon de s’exprimer d’une personne ou d’une
entreprise vers un autre groupe d’individus (et toutes les subtilités à
faire passer ou pas). C’est là que réside la principale différence.
De même que la qualité, le second avantage d’un traducteur humain est
son efficacité. Paradoxalement, même si la machine est “moins coûteuse”
(en général) et plus rapide dans l’exercice de traduction, elle demande
la manipulation d’une personne pas forcément formée à cela.
Le traducteur prend toute la mission à sa charge et restitue un
document finalisé complet à son client. En ce sens, le traducteur
humain est plus efficace puisqu’il libère du temps et accomplit ce
qu’il doit faire de A à Z sans avoir besoin de l’intervention de son
client.
Vous l’aurez compris, la solution n’est ni noire ni blanche mais se
situe entre les deux. Elle est en réalité dépendante de vos besoins.
Pour un document qualitatif, qui doit être parfaitement traduit et qui
se doit de faire passer certains messages clés à vos publics, alors
vous devrez faire particulièrement attention au rendu final, et
généralement travailler avec un traducteur humain. N’hésitez pas à vous
inscrire dès maintenant pour pouvoir profiter de la plateforme dès son
lancement.
Au contraire, dans le cas de “petites missions” de traduction, pour des
textes plus courts mais surtout moins importants, le recours à un
traducteur machine peut-être la solution la plus efficace (au vu de son
coût et de sa rapidité de réponse).
#alternate alternate Tradonline, agence de traduction » Flux
Tradonline, agence de traduction » Flux des commentaires Tradonline,
agence de traduction » Tout sur la traduction automatique et la
post-édition ! Flux des commentaires Formation e-learning : comment
rentabiliser sa stratégie ? Réalité virtuelle : au cœur de Laval
Virtual alternate alternate
Tout sur la traduction automatique et la post-édition !
par Tradonline | Mar 20, 2018 | Nos services, Technologies | 0
commentaires
Tout sur la traduction automatique et la post-édition !
La post-édition de traduction automatique est une prestation de plus en
plus vendue par les agences de traduction, or tout le monde ne sait pas
vraiment ni de quoi il s’agit, ni comment on se forme à cette
discipline. Chères traductrices et chers traducteurs, vous trouverez
quelques éléments de réponse dans cet article.
Définition de la traduction automatique avec post-édition
Avant toute chose, il me semble nécessaire de procéder à une petite
définition des termes principaux car nous allons ensuite utiliser les
termes MT (machine translation) ou PE (post-édition), et nous ne
voudrions pas vous perdre en route !
Qu’entend-on par MT ? En anglais MT veut dire machine translation, ou
traduction automatique en français.
Un moteur de traduction automatique est un programme informatique qui
va nous fournir une traduction automatique. Il existe un grand nombre
de moteurs différents, tous basés sur l’intelligence artificielle, mais
ce n’est pas le sujet du jour.
La distance de post-édition, ou « post-edit distance » en anglais,
correspond au pourcentage de modifications effectuées par un humain sur
la traduction automatique afin d’obtenir une traduction de qualité
suffisante.
La vitesse de post-édition est un taux que nous calculons et qui permet
de connaître le nombre de mots que pourra traiter un traducteur par
heure, en fonction de la distance de post-édition. En d’autres termes,
plus la distance de post-édition est importante, moins nous gagnerons
de temps grâce à l’utilisation d’un logiciel de traduction automatique.
Cette vitesse de post-édition est un élément important à calculer en
amont de tout projet incluant post-édition, afin de vérifier la
faisabilité du projet.
Pourquoi utiliser un logiciel de traduction automatique ?
La traduction automatique est une solution qui permet à certaines
entreprises de publier plus de contenus dans plus de langues, plus vite
et pour un coût restreint.
Ce qu’il faut bien comprendre c’est que le but de la traduction
automatique (MT) tout comme celui des outils de TAO est d’augmenter la
productivité. Ces outils sont donc utiles dans certains cas, lorsque le
volume à traduire le nécessite et si les résultats de la traduction
automatique le permettent.
Mais pour que ces projets de traduction automatique avec post-édition
soient une réussite, il est nécessaire de faire intervenir des
linguistes professionnels.
Il s’agit d’une nouvelle discipline et comme toute nouveauté elle fait
peur. Sachez que notre but n’est pas du tout de remplacer nos
traducteurs par des machines.
La traduction automatique est donc utilisée dans certains cas
uniquement, selon :
Les langues source et cible,
Le domaine (médical, financier, etc.),
Le type de contenu,
Le degré de qualité attendue.
À noter : les résultats d’une traduction automatique sont toujours
imparfaits ! Ce qui est important c’est de pouvoir vérifier dans quelle
mesure nous allons pouvoir gagner en productivité grâce à son
utilisation.
Chez TradOnline nous considérons que si une traduction automatique vous
fait gagner moins de 30 % de votre temps, alors ça n’a pas vraiment
d’intérêt. En d’autres termes, si vous traduisez en moyenne 300 mots
par heure sur une traduction 100 % humaine, il faut au moins que vous
puissiez traduire 400 mots par heure avec l’utilisation d’une
traduction automatique.
À ce stade, il est important de préciser que ce gain de temps dépendra
également grandement de la qualité attendue par notre client.
Mais avant tout, il faut que vous soyez dans une démarche d’ouverture
d’esprit et que vous ayez envie de tester. Car oui, la PE demande une
formation spécifique puisque comme vous l’avez sans doute remarqué,
elle ne produit jamais un résultat parfait.
Nous estimons que la traduction automatique est une tendance du marché
que nous ne pouvons pas ignorer au risque d’être dépassés. C’est
pourquoi nous investissons du temps sur cette nouvelle tendance et
sommes prêts à vous accompagner dans cette démarche de formation.
Formez-vous à la traduction automatique, ce n’est pas une perte de
temps, c’est une nouvelle compétence professionnelle sur votre CV, une
nouvelle corde à votre arc !
Quelle qualité est attendue en post-édition ?
Les exigences de post-édition seront différentes d’un projet à un
autre. Dans tous les cas, votre mission sera de répondre à ces
exigences en faisant le moins de changements possible sur la traduction
automatique initiale.
Cette information est l’une des plus importantes, car beaucoup de
traducteurs ont tendance à trop post-éditer.
Pour être un bon post-éditeur, il faut donc avoir une bonne capacité
d’analyse afin de prendre des décisions rapides sur chaque segment à
post-éditer. Mais rassurez-vous, pour devenir un bon post-éditeur, il
faut de l’entraînement !
En termes de qualité, nous vendons 2 types de prestations différentes :
une post-édition partielle et une post-édition complète. Le choix de
l’une ou l’autre solution dépendra de la portée du document de notre
client.
S’il s’agit d’un document qui doit être publié, on optera plutôt pour
une post-édition complète alors que si le document doit être traduit
pour une utilisation interne ou uniquement à but informatif, nous
opterons pour une post-édition partielle.
Quand on fait une PE partielle, on s’attache uniquement aux erreurs
suivantes : contenu offensant ou culturellement inapproprié, mot
manquant ou superflu, mauvaise traduction (contresens), mots mal
orthographiés, erreurs de grammaire, erreurs de glossaire (si prédéfini
avec le client).
Pour une PE complète, il faudra corriger également toute erreur de
terminologie, l’ordre des mots si nécessaire, la structure globale de
certaines phrases, le style, la ponctuation et le format des chiffres.
But : que le texte cible devienne fluide, naturel.
Une PE complète nécessite l’utilisation d’un traducteur spécialisé dans
le domaine en question, ce qui n’est pas le cas pour une PE partielle.
Le but d’une PE complète est d’atteindre une qualité de traduction dite
« humaine ». Rappel : cette solution convient à assez peu de projets !
Si vous manquez d’informations sur le degré de qualité attendu, vous
devez absolument poser la question à votre chef de projet, car ceci
détermine directement le temps que vous devrez allouer à ce travail.
Quelques conseils :
Ne faites pas de sur-corrections,
Ayez les idées claires sur ce qu’on attend de vous,
Ne passez pas trop de temps à réfléchir : de gros doutes sur un
segment ? Supprimez-le et traduisez-le à nouveau !
Utilisez tous les outils à votre disposition : correcteurs
orthographiques, glossaires, mémoires de traduction, outils de QA,
Ne vous découragez pas, c’est en vous exerçant que vous allez
devenir un(e) vrai(e) pro en post-édition !
#alternate alternate Master CAWEB » Flux Master CAWEB » Flux des
commentaires Master CAWEB » L’intelligence artificielle révolutionne la
traduction automatique Flux des commentaires alternate alternate
L’intelligence artificielle révolutionne la traduction automatique
Posté le 15 décembre 20174 décembre 2018 par Colline Marabese | Author
: Colline Marabese | Localisation, Translation
L’époque à laquelle nous pouvions rire des résultats maladroits des
outils de traduction automatique est désormais dépassée. Le
développement en puissance de l’intelligence artificielle (IA),
appliquée au domaine de la traduction automatique, est en train de
changer la donne.
Intelligence artificielle et traduction
Les avancées de la traduction automatique (TA)
À l’ère du numérique et de l’intelligence artificielle, les systèmes
symboliques et statistiques, dont le fonctionnement se base
respectivement sur des règles linguistiques et des ensembles de textes
traduits, sont presque devenus obsolètes.
L’émergence de différents outils de traduction automatique, basés sur
l’intelligence artificielle et les réseaux neuronaux, a marqué une
étape clé dans l’évolution des outils de traduction automatique. A
titre d’exemple, la traduction automatique vocale et adaptative ont de
grandes chances de prendre une place prépondérante dans le domaine de
la traduction dans les années à venir.
La traduction automatique vocale
La traduction vocale en temps réel, ou « speech-to-speech translation »
(S2S), fait appel aux dernières avancées en termes d’intelligence
artificielle, comme les réseaux profonds de neurones.
Il est nécessaire de passer par trois étapes bien distinctes afin de
traduire un discours oral dans la langue source à un discours oral vers
la langue cible:
La reconnaissance vocale permet de transcrire le discours oral en
texte écrit, qui peut ensuite être exploité par les systèmes. La
reconnaissance vocale est uniquement possible grâce à un réseau
neuronal profond, qui fonctionne de manière assez similaire au
cerveau humain.
La traduction automatique permet de traduire la transcription dans
la langue cible.
La synthèse de la parole transforme la traduction écrite en
discours oral.
Skype s’est lancé sur le marché de la traduction automatique vocale :
Skype Translator gère la traduction de conversations vocales en temps
réel. Ce service est disponible en sept langues différentes.
La traduction automatique adaptative
La traduction automatique adaptative, AdaptiveMT, a été développée par
SDL. Il s’agit d’un outil basé sur le machine learning, l’apprentissage
automatique par la machine.
Concrètement, comment est-ce que cela fonctionne ?
L’AdaptativeMT peut être qualifié de moteur de traduction automatique
privé. C’est à dire que le traducteur possède son propre moteur de
traduction automatique. Le moteur de traduction automatique basé sur
l’auto-apprentissage s’adapte et apprend en temps réel, au fur et à
mesure que les segments sont traduits dans le logiciel.
Toutes les modifications sont donc effectuées instantanément dans le
texte, ce qui fait gagner en cohérence, pour une analyse personnalisée.
La data constitue la clé de ce système, puisque c’est elle qui nourrit
l’analyse. En somme, si la matière à analyser augmente, les traductions
se rapprocheront davantage de traductions humaines, du point de vue de
la qualité et de la fluidité.
Traduction automatique : quel avenir ?
Aujourd’hui, le développement de l’IA a de beaux jours devant elle,
mais les machines ne sont pas prêtes de remplacer le travail des
traducteurs professionnels.
Étant donné l’abondance des flux d’informations multilingues, les
traducteurs ont de plus en plus de mal à répondre à la demande
exponentielle en traductions. En utilisant les outils mentionnés, les
professionnels du domaine restent maîtres de leur processus créatif, et
les options proposées par la traduction automatique accroissent leur
productivité.
Ces avancées peuvent leur permettre de se concentrer sur les textes à
plus forte valeur ajoutée. Cependant, il est indéniable que l’essor de
traduction automatique, de plus en plus fiable et précise va de pair
avec une évolution du domaine de la post-édition.
Les progrès futurs en termes d’apprentissage automatique par machine
permettront de transformer en profondeur les méthodes de communication
et de traduction au niveau international.
Sources :
https://www.latribune.fr/technos-medias/internet/quand-l-intelligence-a
rtificielle-revolutionne-la-traduction-automatique-626326.html
http://www.zdnet.fr/actualites/traduction-automatique-les-moteurs-neuro
naux-debarquent-en-rafale-39846178.htm
https://blog.sdltrados.com/fr/adaptivemt-self-learning-machine-translat
ion-engine-questions-answered/
Posté dans Localisation, Translation
#publisher Actu IA » Flux Actu IA » Flux des commentaires alternate
alternate alternate alternate
Actu IA intelligence artificielle Actu IA
Le portail de l'intelligence artificielle et des startups IA
Recherche, écosystème, éthique de l'intelligence artificielle et
évolution de la société
Intelligence artificielle Marché de l'IA Vie courante Traduction
automatique : Focus sur la solution Open Source proposée par
Systran,...
Actualité
Traduction automatique : Focus sur la solution Open Source proposée par
Systran, acteur historique de la T.A qui ne cesse de se renouveler
Traduction automatique : Focus sur la solution Open Source proposée par
Systran, acteur historique de la T.A
[Actu-IA_retina.png] [Actu-IA_retina.png]
Actu IA
Par
Johanna Diaz
-
13 avril 2018
Systran traduction neuronale
Les progrès de l’intelligence artificielle permettent un véritable
essor technologique, notamment en matière de traduction automatique.
Après la traduction statistique, le nouveau paradigme dominant est
maintenant la traduction basée sur des réseaux de neurones, également
appelée traduction neuronale. De nombreux articles de recherche sont
publiés sur le sujet et les GAFAM s’y intéressent plus que jamais. En
2016, SYSTRAN, qui fête ses 50 ans, a lancé le premier moteur de
traduction neuronal, Pure Neural^® MT (PNMT^®). Destiné aux
professionnels et optimisé pour être toujours à la pointe, il exploite
les dernières avancées en matière d’intelligence artificielle,
d’apprentissage profond (deep learning) et de réseaux de neurones
artificiels. Nous avons eu la chance de nous entretenir avec Jean
Senellart, Directeur Technique & Innovation du groupe SYSTRAN et Gaëlle
Bou, Directrice Commerciale & Marketing à ce propos.
Systran
Les modèles neuronaux et le deep learning au service de la traduction
automatique
Éditeur de logiciels spécialisé dans la traduction automatique et le
traitement naturel du langage, SYSTRAN a toujours été l’un des
pionniers dans le domaine et a mis sur le marché fin 2016 une nouvelle
génération de solutions, basées sur un framework opensource OpenNMT
développé en collaboration avec Harvard NLP. OpenNMT a notamment été
récompensé par ACL 2017, la conférence mondiale des experts en
linguistique informatique dans la catégorie des systèmes opérationnels.
Au-delà du moteur générique, SYSTRAN propose d’optimiser les réseaux
neuronaux dans un processus post entraînement, appelé “spécialisation”.
Cette méthode de spécialisation apporte une nette amélioration du score
de qualité de la traduction en un temps record comme l’indique Jean
Senellart :
« La traduction neuronale apporte indéniablement une nette
amélioration de la qualité de la traduction et ce n’est qu’un début.
Ce qui, de mon point de vue, est encore plus excitant, c‘est la
gamme de nouvelles applications que cette technologie va offrir dans
un avenir proche.
Par exemple, il est déjà possible d’introduire une interaction
instantanée entre le traducteur humain et la traduction neuronale,
avec des interfaces de traduction prédictive et incrémentale. Ces
dernières apportent des propositions plus pertinentes, au fur et à
mesure des corrections effectuées par le traducteur. »
Une technologie révolutionnaire rendue open source
En lançant PNMT^®, SYSTRAN a en même temps rendu open source les outils
utilisés lors de son développement, comme nous l’ont indiqué Jean
Senellart et Gaëlle Bou :
« Un positionnement inédit pour SYSTRAN puisque c’est une société
privée qui a toujours protégé son code source. Nous avons décidé de
franchir le pas de l’open source car c’est le sens de l’histoire et
parce que c’est toute une communauté qui participe à l’évolution de
cette technologie d’excellence. Bien évidemment de notre côté nous
développons autour de ce noyau technologique des fonctionnalités
additionnelles, des interfaces utilisateurs et des outils de
productivité qui rendent la technologie opérationnelle et facile à
intégrer dans les systèmes d’information des entreprises. ».
Triangle de Vauquois – Moteur de traduction neuronal – Systran
OpenNMT est un système de traduction neuronal Open Source, lancé en
décembre 2016, et qui compte plus de 1500 utilisateurs et contributeurs
issus du monde académique et industriel. Une vingtaine de chercheurs,
linguistes et ingénieurs du centre R&D de SYSTRAN basé à Paris,
travaillent au développement de cette plateforme et animent la
communauté d’utilisateurs.
« Ce framework initialement développé par un étudiant de Harvard
NLP, a été ré-écrit par les équipes R&D de SYSTRAN. Nous avons ainsi
créé une dynamique de collaboration longue durée avec le groupe
Harvard sur le projet OpenNMT.
Initialement, nous nous basions essentiellement sur le toolkit de
calcul Torch initié par : nous avons d’ailleurs reçu un
grand soutien de la part de leurs équipes pour l’utiliser. Puis
a lancé PyTorch et nous avons donc lancé une nouvelle
version d’OpenNMT pour PyTorch. Nous avons ensuite été encore plus
loin car devant le succès croissant de TensorFlow, nous avons lancé
une troisième version d’OpenNMT, cette fois pour
TensorFlow. Aujourd’hui nous supportons donc trois frameworks
totalement différents et nous sommes en train de travailler sur un
quatrième : MxNet ».
OpenNMT propose une interface simple d’utilisation avec des modèles et
des processus d’entrainement configurables, ainsi que des extensions
pour permettre de développer des modèles de résumé automatique, de
traduction des images en texte ou même de reconnaissance vocale.
« Il s’agit d’un système qui est pensé pour des développements
industriels, ce n’est pas seulement un environnement expérimental.
De ce fait nous avons beaucoup de développeurs de grandes
entreprises, qui construisent leurs propres systèmes en se basant
sur les outils OpenNMT. Par exemple, booking.com base son système de
production sur OpenNMT et nous sommes ravis de collaborer avec leurs
équipes. »
OpenNMT réunit une communauté importante de chercheurs. Depuis un an,
nous avons presque une centaine d’articles scientifiques publiés sur
différentes applications, notamment la traduction automatique mais
aussi la génération de textes, dont les auteurs ont utilisé OpenNMT
pour leurs recherches.
SYSTRAN, de son côté, bénéficie également de cette communauté et de
cette dynamique car à chaque publication intéressante sur le sujet,
l’éditeur intègre les algorithmes à sa solution. Par exemple,
‘Transformer’, la dernière approche de Google concernant la traduction
automatique, ou encore l’approche convolutionnelle créée par .
Ces deux algorithmes ont été intégrés à OpenNMT pour qu’ils soient
disponibles pour d’autres expériences par la suite. SYSTRAN donne des
outils aux chercheurs, suit les publications, intègre de nouvelles
fonctionnalités pour que la technologie reste toujours à la pointe de
l’innovation.
« Maintenir un outil Open Source pour une utilisation industrielle
est un challenge car cela veut dire que tout doit marcher en
permanence – il n’y a pas le droit à l’abandon de fonctionnalités ou
l’absence de compatibilité ascendante. Quand nous avons lancé la
première version d’OpenNMT il y a un an et demi, nous nous sommes
engagés à ce que les modèles entrainés à l‘époque marchent toujours
aujourd’hui. Nous assurons donc aussi cette maintenance. »
OpenNMT
L’apprentissage non-supervisé, l’avenir de la traduction automatique ?
L’apprentissage non-supervisé intéresse de nombreux chercheurs et
ingénieurs, dans de nombreux domaines. En matière de traduction, deux
articles ont eu un écho retentissant en fin d’année dernière. Deux
équipes de chercheurs en informatique, l’une formée par Guillaume
Lample, Ludovic Denoyer et Marc’Aurelio Ranzato à Paris, et l’autre par
Mikel Artetxe, Gorka Labaka, Eneko Agirre, Kyunghyun Cho de
l’Université du Pays Basque (UPV) à San Sebastian en Espagne, ont en
effet réalisé des avancées particulièrement intéressantes. En utilisant
l’intelligence artificielle, les chercheurs ont développé des
techniques pour permettre aux réseaux de neurones de traduire entre
deux langues sans avoir recours à un dictionnaire ou à une intervention
humaine.
SYSTRAN s’intéresse donc évidemment à cette technique mais a également
un autre axe d’innovation : le training infini.
« On peut prendre l’exemple du ‘Transformer’ de Google qui
déclare : « Avec ces 4 millions de phrases qui sont une référence
pour tout le monde, nous arrivons à avoir un score de N+2, là où le
meilleur résultat pour l’instant était de N ». Il s’agit dans ce cas
de la performance de l’algorithme brut dans des conditions
contraintes.
Cette performance est certes importante mais ne reflète pas les
problématiques industrielles. Nous sommes, chez SYSTRAN, sur une
logique de long terme, plus compliquée d’un point de vue technique.
Notre objectif est le suivant : sur une base de 200 millions de
phrases, nous voulons que nos moteurs continuent à apprendre en
permanence dans une logique de long terme. Nous les entraînons
pendant 6 mois, 1 an, 2 ans, et nous nous assurons qu’ils continuent
à apprendre en permanence. C’est ce qu’on appelle le training
infini, c’est à dire inculquer des données supplémentaires sur du
long terme. Nous avons déjà des résultats intermédiaires et nous
constatons que l’algorithme n’arrête pas d’apprendre et a toujours
cette capacité d’apprendre plus. Cela fait actuellement 6 mois que
nous continuons d’injecter des données dans nos plus vieux moteurs.
Certains modèles apprendront plus vite, d’autres moins vite, mais
sur le long terme arriveront chacun à des capacités différentes non
plus uniformes, mais dépendant de leur propre parcours.
Par extension, dans cette logique long terme et avec le savoir ce
que ces modèles cumulent, il y a une autre logique corrélée :
l’apprentissage de plusieurs langues en même temps.
Cette capacité d’apprendre plusieurs choses permet de mieux former
le système neuronal. Développer un moteur spécialisé sur un domaine
c’est très facile, avec 1 million de phrases vous pouvez obtenir un
modèle qui sait traduire uniquement dans ce domaine de façon très
précise en 3 jours. Ce que nous essayons de faire, c’est d’avoir des
moteurs sur lesquels on apprend, sur du long terme, à traduire de
façon générique et à potentiellement devenir des experts dans
plusieurs domaines à la fois. Une question est de savoir jusqu’où
nous serons capables d’entraîner un moteur qui serait générique mais
qui serait bon à la fois en traduction informatique, en traduction
médicale, etc.
C’est un défi important pour servir nos clients mais également un
challenge intellectuel intéressant d’un point de vue recherche
puisqu’il s’agit de trouver comment apprendre à des réseaux de
neurones à se diversifier et à utiliser cette diversification pour
devenir meilleurs. De nombreux articles sur ce sujet, dans des
domaines très différents, ont été publiés. Dans le domaine des jeux
par exemple, on a montré qu’on était capable d’apprendre à un réseau
de neurones à jouer à un jeu mais que si on voulait lui apprendre à
jouer à un deuxième jeu en même temps, il perdait une partie de son
savoir sur le premier jeu. C’est ce qu’on appelle l’oubli
catastrophique (catastrophic forgetting) et c’est un défi
scientifique très intéressant. »
Apprentissage non-supervisé, training infini, moteur de traduction
experts dans différents domaines, SYSTRAN se montre ambitieux dans un
secteur où les évolutions sont nombreuses. Comme l’indique Jean
Senellart :
« Peut-être que demain, dans un an, dans 10 ans, on aura un moteur
de traduction capable de parler six langues, de traduire aussi bien
du Shakespeare que du médical et des extraits spécialisés dans le
domaine légal ».
Mais SYSTRAN ne se limite pas à la simple traduction et s’intéresse de
très près à la convergence des différentes technologies :
« Historiquement l’intelligence artificielle a d’abord été appliquée
à l’image, puis à la voix et maintenant au texte. Beaucoup de
spécialistes pensent qu’il y aura une convergence de ces modalités
qui permettra d’améliorer encore la qualité de traduction. Par
exemple, si la machine utilise à la fois des sources vidéo et images
en plus du texte, la traduction produite sera encore plus précise et
adaptée au contexte.
Il y a un potentiel très important sur ce sujet et il s’agit d’un
enjeu fabuleux. Il pourrait y avoir plusieurs applications et
plusieurs modalités en même temps au lieu de la seule traduction,
notamment pour extraire de l’information ».
Un modèle économique d’un nouveau genre
Qu’une société comme SYSTRAN ait décidé de proposer en open source son
moteur neuronal sur le framework OpenNMT peut étonner. Pourtant, le
développement des nouveaux outils passe désormais par ce type
d’environnement ouvert permettant aux acteurs de présenter leurs
algorithmes au monde entier. Cela leur permet d’être actif au sein
d’une communauté dynamique mais aussi de pouvoir, grâce aux échanges et
aux retours des membres, disposer du code le plus optimisé possible, de
nouvelles fonctionnalités et de nouveaux algorithmes, comme c’est le
cas pour OpenNMT.
OpenNMT
L’objectif de SYSTRAN a toujours été d’offrir aux professionnels des
solutions de traduction spécialisée dans leur terminologie métier.
SYSTRAN est aujourd’hui un groupe de 200 personnes dont 60 basées à
Paris. En rendant open source son moteur neuronal, il fallait démontrer
que ce modèle permettait également de rémunérer les chercheurs et de
générer des bénéfices. La clé de cette réussite réside dans le fait que
la mise à disposition d’OpenNMT s’accompagne d’une offre de services et
de solutions clés en main qui répondent aux besoins d’une majorité de
clients. Gaelle Bou et Jean Senellart rappelaient à ce propos :
« Nous avons été contactés par de grands groupes industriels après
qu’ils aient découvert OpenNMT. Leurs équipes l’utilisaient, et ils
souhaitaient savoir si nous pouvions les accompagner pour aller plus
loin, car une des valeurs clé de SYSTRAN est le savoir-faire qui est
indispensable pour faire de cette technologie un véritable outil de
production.
A l’instar d’autres éditeurs open source (Docker, Redhat…), nous
sommes en train de développer toute une palette d’outils et de
services autour du noyau technologique. En parallèle bien évidement
SYSTRAN propose une solide gamme de solutions clés en main pour les
entreprises et les organisations publiques qui connait un très beau
succès et qui ne cesse d’être optimisée ».
Plus d’informations sur OpenNMT.
Découvrez le serveur de démonstration Pure Neural™.
L’équipe d’ActuIA tient à remercier Jean Senellart et Gaëlle Bou avec
qui nous avons eu grand plaisir à échanger.
Thématiques
Marché de l'IA
Recherche en intelligence artificielle
Lire plus d'actus IA sur
Guillaume Lample
[guillaume_lample.jpg] Guillaume Lample réalise actuellement une
thèse CIFRE dans le cadre d'une collaboration /UPMC. Il a
étudié à l'université Carnegie Mello...
Voir les actualités de Guillaume Lample
Jean Senellart
Jean Senellart est diplômé de l’École Polytechnique et titulaire
d’un Doctorat en Informatique Linguistique de l’Université de Paris
VII. Ch...
Voir les actualités de Jean Senellart
OpenNMT
Voir les actualités de OpenNMT
Systran
[systran.png] Systrant est un éditeur de logiciels spécialisé dans
la traduction automatique et le traitement naturel du langage. Il
est l'un des pionniers dans ...
Voir les actualités de Systran
TAGS
apprentissage non supervisé
deep learning
linguistique
moteur de traduction neuronal
MXNET
open source
PyTorch
recherche
reconnaissance vocale
réseau de neurones
spécialisation
TensorFlow
traduction
traduction prédictive
training infini
traitement automatisé du langage
traitement des données du langage naturel
traitement du langage naturel
Vous pourriez également être intéressé par :
AWS REINVENT 2018_ AWS REINVENT 2018_ AWS REINVENT 2018_
AWS Reinvent 2018 : Une marketplace dédiée à l’intelligence
artificielle
Skema lab IA Skema lab IA Skema lab IA
SKEMA lance un laboratoire mondial en intelligence augmentée sous
la direction de Thierry Warin
bertrand_braunschweig bertrand_braunschweig bertrand_braunschweig
Bertrand Braunschweig devient directeur de la mission Inria de
coordination du programme national de recherche en intelligence
artificielle
Pierre-Yves Oudeyer Pierre-Yves Oudeyer Pierre-Yves Oudeyer
Les Prix Inria 2018 récompensent notamment Pierre-Yves Oudeyer,
pionnier de la « curiosité artificielle »
Digitale attitude
DeepL, le meilleur traducteur automatique?
CHRONIQUE. Le marché de la traduction automatique est occupé
essentiellement par Google Translate et Bing de Microsoft, mais un
nouveau venu baptisé DeepL risque de les coiffer au poteau
3 minutes de lecture
Technologies Chroniques
Lancé en 2017, DeepL Translator est un système de traduction
automatique basé sur l’intelligence artificielle, capable de fournir
des traductions tout en identifiant les nuances de langage les plus
subtiles. A l’heure actuelle, il est disponible gratuitement
sur DeepL.com et fonctionne en français, anglais, allemand, espagnol,
italien, polonais et néerlandais.
La société, allemande, existe en fait depuis 2009 sous le nom de
Linguee, qui a été le premier moteur de recherche de traduction sur
Internet. Depuis, le site a répondu à plus de 10 milliards de demandes
provenant de plus d’un milliard d’utilisateurs. C’est un des outils les
plus utiles et populaires du Web, car plutôt que de traduire un mot par
son équivalent comme le ferait un dictionnaire, Linguee propose le mot
dans son contexte, en indiquant une série d’exemples où le mot a été
utilisé.
Galop d’entraînement avec Linguee
Linguee a donc servi de matériel d’entraînement au réseau neuronal de
traduction de DeepL, qui fonctionne sur un superordinateur situé en
Islande. Celui-ci est doté d’une puissance de calcul capable
d’effectuer 5 100 000 000 000 000 opérations par seconde, ce qui est
suffisamment puissant pour traduire un million de mots en moins d’une
seconde. Pour l’utilisateur qui copie et colle un texte dans un champ,
cela résulte en une traduction de qualité, immédiate.
Avec DeepL (capture d'écran)
Comment DeepL fait-il la différence avec Google Translate et Bing?
Comparés côte à côte, certains paragraphes sont quasiment identiques.
Mais là où les phrases sont interprétées différemment, celles de DeepL
sont souvent plus justes.
Avec Bing. (capture d'écran)
Avec Google. (capture d'écran)
Un fait confirmé par des traducteurs professionnels qui, lors de tests
à l’aveugle opposant DeepL à ses concurrents, ont accordé trois fois
plus souvent leur préférence à DeepL.
Alors les traducteurs automatiques sont-ils une menace pour les
professionnels du métier? «Non, pas à l’heure actuelle», selon Benjamin
Bayet de DeepL: «La traduction machine a pour but d’améliorer le
rendement et la qualité du travail des professionnels. Notre objectif
n’est pas de les remplacer mais d’être pour eux un outil
indispensable.»
__________________________________________________________________
#Le Monde.fr : Idées
La traduction automatique, « enjeu technologique, économique et culturel »
François Yvon, chercheur en informatique, dans une tribune au
« Monde », souligne l’importance des technologies de traduction,
nécessaires au développement international des entreprises et à
l’affirmation de la souveraineté nationale.
Par François Yvon Publié le 21 juin 2018 à 15h00 - Mis à jour le 21
juin 2018 à 15h00
Temps de Lecture 4 min.
Envoyer par e-mail Envoyer par e-mail
Article réservé aux abonnés
« Une langue ne rayonnera que si elle s’appuie sur des outils d’IA
performants » (Photo: HomePod, une enceinte connectée qui se contrôle
avec la voix grâce au logiciel Siri).
[7753f0d_b019fb6fc9744c2fb86a7b385b13ff0d-b019fb6fc9744c2fb86a7b385b13f
f0d-0.jpg] « Une langue ne rayonnera que si elle s’appuie sur des
outils d’IA performants » (Photo: HomePod, une enceinte connectée qui
se contrôle avec la voix grâce au logiciel Siri). Marcio Jose Sanchez /
AP
Tribune. Le président Macron a récemment prononcé deux grands discours,
en apparence sans lien l’un avec l’autre : le premier, le 20 mars pour
affirmer devant l’Académie française sa volonté de rétablir la place du
français parmi les grandes langues mondiales du XXI^e siècle ; le
second, le 29 mars, devant la fine fleur de la recherche en sciences du
numérique, pour annoncer un plan d’action pour développer
l’intelligence artificielle (IA) en France et en Europe.
Le premier, truffé de citations littéraires, prône comme mesure phare
le renforcement de l’apprentissage du français pour tous (les écoliers
français, les migrants, les étrangers dans les instituts français). Le
second, mâtiné de franglais, promet le développement d’une nouvelle
filière industrielle : soutien aux « talents » et à l’innovation,
libération des « datas », etc.
Les motifs pour lier les deux sujets – langue et IA – ne manquent
pourtant pas. L’enjeu de la traduction automatique (TA) permet de le
démontrer.
Le discours sur l’IA insiste sur les opportunités de développement
économique qu’offrent ces technologies. Or, grâce à la TA, il devient
possible aux entreprises françaises de bénéficier pleinement du grand
marché européen unifié, en traduisant dans les 23 autres langues
officielles de l’Union européenne (UE) leurs manuels techniques,
contrats, catalogues et sites Internet.
Citoyens de seconde zone
Car se limiter à traduire vers l’anglais n’est pas suffisant : moins
d’un Européen sur deux parle anglais, et plus de 70 % des Européens
font plus confiance aux sites rédigés dans leur langue pour commercer
en ligne. L’utilisation d’une TA de haute qualité pour traduire depuis
le français vers les langues de l’UE – mais aussi vers le mandarin,
l’hindi, l’arabe… – est la seule solution économiquement viable.
Dans le sens inverse, les consommateurs et les citoyens français
doivent pouvoir accéder à des contenus (bien) traduits : pour choisir
des produits et services étrangers, pour interagir avec les
administrations d’Etats membres sur des questions commerciales,
réglementaires, ou de droits sociaux. L’UE a saisi ces enjeux, et
intègre des outils de TA dans une palette toujours plus large de
services : règlement de contentieux commerciaux, publication de marchés
publics, bibliothèque numérique Europeana, etc. Faute de TA de qualité,
de multiples services restent inaccessibles, reléguant les Européens
non-anglophones au rang de citoyens de seconde zone.
Le Monde utilise des cookies pour vous offrir une expérience
utilisateur de qualité, mesurer l’audience, optimiser les
fonctionnalités des réseaux sociaux et vous proposer des publicités
personnalisées. En poursuivant votre navigation sur ce site, vous
acceptez l’utilisation de cookies dans les conditions prévues par notre
politique de confidentialité. En savoir plus et gérer les cookies.
Paramétrer les cookies (BUTTON) Accepter
(BUTTON) Fermer la bannière d’avertissement sur les cookies
#publisher
Quand l’intelligence artificielle révolutionne la traduction automatique
Par Sylvain Rolland | 22/12/2016, 8:08 | 1086 mots
Systran s'est bien placé dans la course au marché des entreprises, mais
ses concurrents sont également dans les starting blocks, notamment SDL,
ainsi que Google et Microsoft. Les deux géants du net américains ont
aussi annoncé cet automne le lancement de moteurs neuronaux pour la
traduction. Systran s'est bien placé dans la course au marché des
entreprises, mais ses concurrents sont également dans les starting
blocks, notamment SDL, ainsi que Google et Microsoft. Les deux géants
du net américains ont aussi annoncé cet automne le lancement de moteurs
neuronaux pour la traduction. (Crédits : Regis Duvignau / Reuters)
L’éditeur Systran, dont les équipes de recherche sont installées en
France, vient de lancer un moteur de traduction automatique fondé sur
un « réseau neuronal » d’intelligence artificielle. Microsoft et Google
sont aussi dans les starting-blocks. L’objectif ? Doter la machine de
capacités de compréhension et de restitution digne de l’homme. Jusqu’à
le remplacer ?
La machine va-t-elle rattraper puis dépasser l'homme dans tous les
domaines, même ceux qui exigent des qualités poussées de compréhension,
de contextualisation, d'anticipation, de finesse, bref, des
caractéristiques profondément humaines ? Au début de l'année, le
meilleur joueur de go au monde a été battu à la loyale par une
intelligence artificielle de Google. L'exploit paraissait pourtant
impossible, mais la machine, dopée à l'intelligence artificielle, au
deep learning (apprentissage en profondeur) et enrichie par le big data
(analyse des données à grande échelle) a prouvé qu'elle pouvait
anticiper le jeu et faire preuve de créativité dans les coups, jusqu'à
battre le champion du monde.
L'intelligence artificielle va bouleverser la traduction
Quid de la traduction ? Jusqu'à présent, les traducteurs n'étaient pas
trop inquiets pour leur avenir. Car malgré les progrès des logiciels,
il était impossible pour une machine de restituer de manière
convaincante toutes les subtilités de la langue, du second degré aux
jeux de mot, en passant par les multiples expressions intraduisibles
par du mot-à-mot. Sans même parler du langage technique et
hyperspécialisé, comme dans le droit, l'informatique ou les contrats.
Cela va changer. Comme pour le jeu de go, l'intelligence artificielle
progresse à vitesse folle. Si bien que plusieurs entreprises (Google,
Microsoft, Systran) ont lancé cet automne, quasi-simultanément, des
logiciels de traduction automatique d'une qualité inégalée. Leur
secret ? Le NMT, pour Neural Machine Translation. Cet acronyme désigne
une intelligence artificielle « neuronale », proche du fonctionnement
d'un cerveau humain. Ce qui lui permet d'embrasser la complexité de la
langue et de restituer du chinois, par exemple, mieux qu'une personne
non-native. Et, à terme, mieux qu'un Chinois lui-même.
Systran lance sa solution de traduction neuronale pour les entreprises
Spécialiste de la traduction automatique depuis quarante ans,
l'entreprise sud-coréenne Systran, dont la R&D est basée en France,
vient de lancer son propre moteur neuronal, baptisé Pure Neural MT, que
l'entreprise revendique comme « le plus abouti du marché ». Disponible
en trente langues, sa solution, permet de « traiter la phrase, le
paragraphe ou le document dans sa globalité », grâce à un réseau de
neurones artificiels unique au monde.
Ce réseau comprend 3.000 lignes de codes, soit davantage, d'après
l'entreprise, que celui de Google Translate. Comme dans un cerveau
humain, Systran a mis au point des sous-réseaux de neurones, qui sont
complémentaires, interconnectés et s'activent au fur et à mesure de
l'avancée de la traduction. Ainsi, un premier sous-réseau va traiter la
phrase pour en extraire le sens. Un second, spécialisé dans la syntaxe
et la sémantique, va enrichir la compréhension. Un troisième va
contextualiser le contenu. Un quatrième va attirer l'attention sur les
mots-clés... Et ainsi de suite.
« Tous ces sous-réseaux nourrissent le moteur et vont lui permettre
de choisir la meilleure traduction possible », explique Jean
Senellart, le président de Systran.
Remplacer la traduction "statistique" popularisée par Google
L'entreprise considère son réseau neuronal comme « une innovation
radicale », destinée à « remplacer toutes les technologies de
traduction existantes ». Effectivement, cette technologie va plus loin
que la traduction « statistique » perfectionnée par Google, qui donne
des résultats parfois très approximatifs, voire ridicules, avec moult
contresens et mauvaise concordance des temps. Car ces anciennes
générations de moteurs se basent sur le big data, ou l'analyse d'un
énorme volume de données en temps réel, pour repérer les phrases qui
reviennent le plus souvent et traduire automatiquement de manière
extrêmement rapide.
Au contraire, le réseau de Systran se nourrit de données
enrichies, comme l'explique Jean Sennelart:
« Notre moteur s'adapte et s'auto-spécialise. Il comprend les bases
d'une langue et s'ajuste au plus près de la terminologie et du
métier de ses clients en apprenant en continu sur la base des
données qui lui sont confiées. Le chinois de l'informatique, le
chinois de juridique et le chinois médical sont presque des langues
différentes, mais le moteur va s'y adapter très vite ».
Systran cible uniquement les entreprises. Les grands groupes mondiaux
représentent 30% de son chiffre d'affaires. Des firmes comme PSA, Adobe
ou Société générale l'utilisent pour traduire leurs contrats et
documents internes dans leurs multiples filiales. L'entreprise équipe
aussi des sociétés de traduction, qui utilisent sa technologie pour
leurs clients.
A la différence de Google, qui se considère propriétaire du texte qu'il
traduit, Systran commercialise ses solutions sur la base d'abonnements
et permet à l'entreprise d'héberger elle-même le logiciel, ce qui lui
donne un avantage compétitif. De fait, Systran travaille avec des
sociétés dans la défense, la sécurité et même des services secrets. «
Les données clients, les contrats ne peuvent pas être dans le cloud,
nous les hébergeons dans nos propres datacenters, explique Cédric
Rouvrais, le directeur de l'équipe d'innovation à la direction des
services informatiques de la Société générale. Par conséquent, il nous
fallait un logiciel de traduction installé en interne, car les données
sont trop sensibles »,
Google et Microsoft se convertissent aussi au neuronal
Si Systran s'est bien placé dans la course au marché des entreprises,
ses concurrents sont également dans les starting blocks, notamment SDL,
mais aussi Google et Microsoft. Les deux géants du net américains ont
aussi annoncé cet automne le lancement de moteurs neuronaux pour la
traduction.
Révélé en novembre, Google Neural Machine Translation (GNMT) s'attaque,
grâce aux réseaux neuronaux d'intelligence artificielle, aux fameuses
erreurs et approximations qui font la renommée de Google Translate.
Avec ce nouveau système, intégré à l'ancien, Google annonce réduire les
erreurs de traduction jusqu'à 85%. Si Google Translate est disponible
dans 103 langues, seules neuf ont été adaptées à la technologie GNMT,
dont le français et l'anglais, mais aussi le chinois, le coréen, le
japonais, le turc, l'espagnol, l'allemand et le portugais. De quoi
améliorer une bonne partie des recherches mondiales.
C'est également en novembre que Microsoft a lui lancé son moteur
neuronal pour ses traductions automatiques via Skype Translator et
Microsoft Translator. Disponible en soixante langues, le système vise à
faciliter les conversations groupées. Jusqu'à 100 personnes peuvent
converser en même temps en utilisant le logiciel. De quoi séduire les
entreprises qui doivent organiser des réunions entre filiales à l'autre
bout du monde.
10 000 startups
#prev next
IFRAME: https://www.googletagmanager.com/ns.html?id=GTM-WHC84B2
La traduction automatique de textes scientifiques vient de faire un
grand pas en avant. Laurent, Fotolia
Tech
Une IA traduit un livre de 800 pages en 12 heures !
ActualitéClassé sous :intelligence artificielle , apprentissage profond
, deep learning
Lire la bio
Marc Zaffagni
Journaliste
Publié le 11/10/2018
Publié le 11/10/2018
C'est une première mondiale. Une intelligence artificielle entraînée
par Quantmetry et Deepl a réalisé la traduction intégrale de l'anglais
en français de l'ouvrage de référence « Deep Learning ». La démarche
est d'autant plus intéressante que les outils ayant servi à préparer
cette traduction seront mis à disposition de la communauté scientifique
en open source afin que les chercheurs puissent réaliser plus
rapidement et à moindre frais des traductions d'ouvrages scientifiques
ou historiques.
Vous aimez nos Actualités ?
Inscrivez-vous à la lettre d'information La quotidienne pour recevoir
nos toutes dernières Actualités une fois par jour.
Traduire le langage courant en divers idiomes est un exercice dans
lequel l'intelligence artificielle (IA) est de plus en plus
performante. Il existe aujourd'hui plusieurs outils de traduction
automatique en ligne grâce auxquels on parvient à saisir le sens d'un
texte avec une relative clarté. Toutefois, demander à une IA de
traduire un texte scientifique ou technique avec la fidélité et la
rigueur nécessaires est encore très compliqué. « Était » encore très
compliqué faut-il plutôt dire puisqu'une belle avancée vient d'être
accomplie dans ce domaine, et qui plus est par une entreprise française
!
Une intelligence artificielle a réalisé la traduction intégrale en
français (depuis l'anglais) du livre « Deep Learning » en 12 heures à
peine et avec une fidélité jusqu'ici jamais atteinte. Cet ouvrage de
huit cents pages coécrit par Ian Goodfellow, Yoshua Bengio et Aaron
Courvill, est une référence mondiale consacrée à l’apprentissage
profond qui n'avait encore jamais été traduit dans la langue de
Molière. Une très bonne nouvelle donc pour les chercheurs et étudiants
francophones et pour tous ceux qui veulent s'intéresser de près à
l'intelligence artificielle.
« Nous voulions amener Deep Learning en France et, au passage, défendre
l'école française de mathématiques et une pensée spécifique dans ce
domaine », explique pour Futura Alexandre Stora, membre de l'équipe
dirigeante de Quantmetry. Cette jeune pousse hexagonale est spécialisée
dans le conseil en intelligence artificielle pour les entreprises. Mais
pourquoi ne pas avoir tout simplement fait appel à des traducteurs
spécialisés ? « Trop long et trop cher », nous répond notre
interlocuteur qui évoque un an de travail et un budget avoisinant les
150.000 euros.
()
La traduction française de Deep Learning, « L’apprentissage profond »,
sera disponible dans les librairies à partir du 18 octobre. Massot
Editions, Quantmetry
La traduction française de Deep Learning, « L’apprentissage profond »,
sera disponible dans les librairies à partir du 18 octobre. Massot
Editions, Quantmetry
Un dictionnaire de 200 termes spécifiques
Pour mener à bien cet ambitieux projet, Quantmetry s'est allié à Deepl,
service en ligne de traduction automatique développé par les créateurs
de Linguee. Lancé en août 2017, Deepl est d'ores et déjà considéré
comme le meilleur de sa catégorie. « La performance de Deepl tient à
son corpus très bien traduit », souligne Alexandre Stora. Mais cela
était encore insuffisant pour pouvoir s'attaquer à la complexité du
texte de Deep Learning. Et surtout, il fallait également pouvoir
traduire les formules mathématiques, les tableaux et autres graphiques
qui ponctuent le texte.
« Nous sommes partis de l'API Deepl à laquelle nous avons ajouté des
outils spécialement développés pour la traduction des fiches et
graphismes », précise le responsable de Quantmetry. L'équipe a
également créé un dictionnaire de deux cents mots spécifiques afin de
garantir une constance et une cohérence dans la traduction des termes
mathématiques.
Trois mois de développement ont été nécessaires pour préparer l'IA à ce
défi. Mais une fois l'outil prêt, il n'a fallu que douze heures à la
machine pour accomplir la traduction. Une équipe de chercheurs de
l'ENSAI, l'Inria et du CNRS a effectué le travail de relecture et
a constaté la très grande qualité de la traduction initiale. Selon
Alexandre Stora, il n'y a eu que peu de reprises au niveau du texte
lui-même, plutôt des « ajustements à la marge », notamment sur la
ponctuation ou bien pour « élargir le contexte ». Toutefois, dans son
communiqué, Quantmetry prend soin de préciser que « l'IA est
performante pour traduire un contenu technique, mais que le rôle du
traducteur humain reste essentiel, à plus forte raison concernant les
ouvrages artistiques ou littéraires ».
Un outil publié en open source
Cette IA peut-elle pour autant être considérée comme une traductrice
hors pair, capable de s'attaquer à n'importe quel livre ? « Elle est
parfaite pour les contenus scientifiques mais elle ne saurait pas
retranscrire la plume, ni le style d'un auteur », reconnaît notre
interlocuteur. Il n'empêche que la performance est déjà
impressionnante. Et surtout, elle ouvre des possibilités très
prometteuses pour la communauté des chercheurs français.
En effet, Quantmetry a prévu de publier en open source le logiciel créé
pour convertir le travail des algorithmes au format LaTex (outil
d'écriture de documents scientifiques très populaire dans le milieu de
la recherche). L'objectif est d'offrir aux chercheurs en sciences, mais
aussi aux historiens, l'opportunité d'adapter l'outil pour réaliser
rapidement et à moindre coût des traductions de textes pointus dont la
faible diffusion ne justifie pas d'engager des traducteurs humains. En
revanche, l'accès à l'API Deepl restera payant.
Quant à la traduction française de Deep Learning, « L’apprentissage
profond », elle sera commercialisée à partir du 18 octobre au prix de
69 euros dans toutes les librairies, à la Fnac et sur Amazon.
Ce qu'il faut retenir
La traduction automatique n'était, jusqu'à présent, pas encore
assez performante pour être utilisée sur des textes scientifiques
ou techniques complexes.
La société française Quantmetry, associée au service de traduction
Deepl, a formé une intelligence artificielle pour réaliser la
traduction d'un ouvrage de référence sur l'apprentissage profond.
Êtes-vous lassé par la mauvaise qualité de la traduction automatique ?
Apprenez à connaître l’API de traduction humaine d’Unbabel
Si vous croyez que le battage médiatique émane des départements de
relations publiques de certaines entreprises de technologie, vous
entendrez toutes sortes de choses sur la façon dont les progrès récents
en “neurologie” signifient que la traduction automatique est “presque
indiscernable” d’une qualité professionnelle.
Mais bien sûr, vous avez réellement utilisé ces services et vous savez
que c’est un non-sens absolu.
Parce que les moteurs de traduction automatique sont formés sur des
phrases simplistes et isolées de Wikipédia et des fils de presse, ils
capturent rarement les nuances et les idiosyncrasies du langage humain
– un robot ne peut pas être drôle.
Alors que Google Translate et ses semblables pourraient être en mesure
de traduire un titre ou une courte phrase, il est terriblement
insuffisant lorsqu’il s’agit de comprendre la subtilité et le ton de la
voix – ce qui est précisément ce dont vous avez besoin si vous êtes sur
le marché de l’externalisation de la traduction ou si vous souhaitez
intégrer une API de traduction.
Traduction de qualité professionnelle en tant que service
Chez Unbabel, nous croyons qu’il y aura toujours un rôle à jouer pour
les humains dans le processus de traduction. Nous croyons que le futur
n’est pas la traduction automatique, c’est machine + traduction
humaine.
Les machines nous permettent d’accélérer le processus de traduction,
mais il faut cette touche humaine pour que les résultats soient
véritablement utilisables par les entreprises modernes.
Comme le professeur Andy Way,l’un des pères de la traduction
automatique l’a déclaré : «l’humain dans la boucle sera toujours la
partie la plus importante de ce processus de traduction.”
Unbabel évite le processus rapide et coûteux de l’embauche de
traducteurs indépendants, optant plutôt pour l’utilisation de la
Traduction Automatique Neuronale pour fournir des traductions plus
rapides qui s’améliorent constamment.
En accord avec cela, nous mettons le meilleur système d’estimation de
la qualité au monde en oeuvre. Il identifie les mots qui sont
incorrects et fournit des scores de qualité automatiques pour chaque
phrase traduite.
Ensuite, c’est à notre communauté de dizaines de milliers de
traducteurs de diverses nationalités de s’occuper minutieusement des
parties de texte nécessitant plus d’attention selon nos estimations et
de délivrer une qualité de traduction que ne fournissent pas les API
machine.
C’est pourquoi peut-être le Le Financial Times dit que nous changeons
le monde.
C’est peut-être pourquoi nous devrions parler des besoins de votre
entreprise aujourd’hui.
Ici, envoyez-nous un message et nous reviendrons vers vous le
lendemain. 🙂
Matthew Carrozo
Pourquoi la traduction est-elle si difficile?
Langue
Localisation
Maria Almeida
July 4, 2018・9 min read
Les principaux enseignements tirés de l’événement annuel d’Unbabel : comment
les grandes entreprises mondiales offrent-elles les meilleures expériences
client ?
#alternate alternate Versacom » Flux Versacom » Flux des commentaires
Versacom » Traduction automatique et intelligence artificielle Flux des
commentaires
LE BLOGUE DE VERSACOM
Traduction automatique et intelligence artificielle
par Versacom | 03 septembre 2018
Traduction automatique et intelligence artificielle
Versacom vous propose une série d’articles sur des enjeux qui vous touchent!
L’impact des nouvelles technologies constitue, depuis quelques
décennies, un enjeu majeur dans le monde du travail. Il a récemment
acquis une toute nouvelle dimension avec l’avancement spectaculaire de
l’intelligence artificielle et le potentiel d’automatisation qu’elle
présente dans une foule de domaines, dont la traduction.
Qu’est-ce que cette nouvelle réalité implique pour le secteur
langagier? Essentiellement, c’est le passage – dont les mérites sont
encore débattus – de la traduction assistée par ordinateur à la
traduction automatique. Quelle différence entre les deux?
En traduction assistée par ordinateur, les langagiers professionnels
exploitent des outils (généralement des mémoires de traduction) qui
leur permettent de retrouver automatiquement tout passage d’un texte
qui a déjà été traduit et qui, dans certains cas, peut être repris tel
quel ou simplement mis à jour plutôt que retraduit à neuf. Autrement
dit, c’est le travail de recherche qui s’automatise, mais pas le
travail de traduction (dont le processus est plus rapide et le résultat
plus uniforme, mais que l’on confie toujours à des experts langagiers).
La traduction automatique, elle, se fait entièrement par logiciel.
L’outil le plus connu et utilisé est certainement Google Traduction.
Les textes traités par traduction automatique sont parfois relus par
des langagiers professionnels, dont le travail se qualifie alors de
postédition (c’est-à-dire une relecture rapide à des fins
d’amélioration du résultat).
Google Traduction fait encore beaucoup rire (ou pleurer certains
utilisateurs échaudés) avec ses résultats imprévisibles et parfois
insensés, mais l’apport récent de l’intelligence artificielle a
significativement changé la donne et la traduction automatique
progresse aujourd’hui à la vitesse grand V. Des acteurs connus ou
émergents annoncent régulièrement le lancement de nouvelles
applications exploitant des technologies apparemment plus sophistiquées
que celles du passé. La traduction automatique reste cependant encore
faillible et exige des précautions tout à fait justifiées, mais
l’automatisation au moins partielle de la traduction est un fait
désormais établi.
Soyons clairs : la traduction automatique ne peut se comparer à la
traduction professionnelle, dans la mesure où les logiciels,
contrairement aux traducteurs, ne comprennent pas le contenu qu’ils
traitent. C’est une distinction déterminante qu’il faut garder à
l’esprit. Les outils de traduction automatique semblent toutefois en
mesure de rendre « adéquatement » certains contenus. Reste à savoir
comment juger de la qualité de ces textes et dans quel contexte ils
sont acceptables (ou à tout le moins utiles).
Il est difficile de faire un choix éclairé devant l’avalanche
d’information souvent très technique sur la traduction automatique et
l’intelligence artificielle.
Une organisation qui envisage de contracter les services d’un
fournisseur de services linguistiques gagne assurément à se
familiariser avec les principaux enjeux de la traduction automatique.
Versacom vous propose donc une série d’articles abordant la question
sous cinq grands angles qui pourraient directement vous toucher :
Le contexte actuel et les principaux enjeux (c’est l’objet du
présent article)
La sécurité de l’information traitée par des outils de traduction
automatique
Les technologies les plus courantes et les plus prometteuses
La qualité des textes traités par traduction automatique
Les usages valables de la traduction automatique dans les
organisations
Chef de file des solutions et des technologies langagières depuis près
de 25 ans, Versacom est au cœur de tous les grands dossiers et de
toutes les réflexions qui définissent ou transforment l’industrie. Nos
articles vulgarisés vous permettront de tirer des conclusions et des
stratégies précises, adaptées aux besoins particuliers de votre
organisation. Nous souhaitons aussi nourrir votre réflexion sur les
enjeux complexes de cette nouvelle réalité.
Bref survol du contexte actuel
Pourquoi la traduction automatique attire-t-elle autant?
Parce qu’elle est instantanée… ou presque
On assiste à l’explosion des contenus et à la multiplication des
plateformes. Les exigences des communications sont désormais
tentaculaires : le contenu doit être diffusé dans de multiples langues
et décliné sous de multiples formes, rapidement, régulièrement,
interactivement.
Comment s’étonner que la traduction automatique attire par sa rapidité?
Parce qu’elle ne coûte rien… ou presque
Derrière la mondialisation des communications, il y a la mondialisation
des affaires et la concurrence entre des organisations dont les
structures de coûts sont radicalement différentes d’un pays et d’un
continent à un autre. Tellement plus à faire et à financer, mais aussi
tellement plus de bas prix à concurrencer.
Comment s’étonner que la traduction automatique attire par sa gratuité?
Parce qu’elle offre une capacité illimitée… ou presque
Non seulement les traducteurs qualifiés travaillent moins vite et
coûtent plus cher que les logiciels (même s’ils travaillent toujours
nettement mieux), mais ils sont aussi bien trop peu nombreux pour
traiter tout le contenu à traduire dans le monde. Il y a des masses
d’amateurs qui se prétendent traducteurs, mais qui seraient incapables
de répondre à vos normes de qualité.
Comment s’étonner que la traduction automatique attire par sa capacité?
Où en est le débat?
Le point de vue des optimistes
“Neural machine translation marks a new age in automatic machine
translation. Unlike technologies developed over the past 60 years, the
well-trained and tested NMT systems that are available today, have the
potential to replace human translators.”
(Slator, avril 2018)
–
“Machines were never so smart, but now they are made so smart that they
can actually think for themselves.”
(TechGenYZ, July 2018)
–
« Within our lifetime I’m fairly sure that we’ll reach — if we haven’t
already done so — human-level performance, and/or exceeding it. »
(WBUR, juillet 2018)
–
« La traduction [automatique] marche tant bien que mal, ça n’est pas
parfait, mais c’est suffisamment bon pour être utile »
(Les.Echos.fr, mai 2018)
–
“Microsoft announced a new way for users to customize neural machine
translation systems (…) This enables additional context to generic
translation models so that translations can reflect a company’s
industry, tone and unique terminology.”
(MSPoweruser, mai 2018)
–
“While many continue to moan about the quality of machine translation
tools, we have already reached a point in human history where the
substantial bulk of language translation is being done by computers.”
(CMS Wire, juin 2018)
Le point de vue des sceptiques
“Has AI surpassed humans at translation? Not even close! Neural network
translation systems still have many significant issues which make them
far from superior to human translators.”
(Skynet Today, July 2018)
–
“Machine learning has improved significantly in pattern recognition and
prediction. Nonetheless, for it to rival the capabilities of a human
brain, two things are needed: a full understanding of the human brain,
and the computing power to replicate it.”
(Slator, February 2018)
–
« Pour l’instant les ordinateurs sont encore assez stupides et il y a
encore beaucoup de progrès à faire. »
(Impact Campus, avril 2018)
–
“Recently, artificial intelligence and machine learning have made
considerable progress with machine translation, which is very fast and
economical to produce. However, in most cases, machine translation
still isn’t good enough to be used as is for human audiences.”
(Markets Insider, November 2017)
–
“The progress we’ve made in machine translation is exciting. But, it’s
not that exciting.”
(OBSERVER, February 2018)
–
“Robots Fail to Win Shoppers’ Hearts: How Man Beats Machine When
Translating Retail Content”
(Retail Tech News, novembre 2017)
Le point de vue de Versacom
La traduction automatique ne peut pas remplacer les langagiers
professionnels, mais elle aide à comprendre le contenu approximatif
d’un texte.
–
L’intelligence artificielle est littéralement artificielle, en ce sens
qu’elle ne fait que simuler l’intelligence. Les logiciels demeurent
dénués de la faculté de compréhension, bien qu’ils donnent l’impression
de comprendre.
–
Que la traduction automatique puisse ou non remplacer un jour la
traduction professionnelle dans certaines situations, c’est aujourd’hui
l’un des nombreux outils dont les traducteurs et leurs clients tirent
profit pour réaliser des économies de temps et d’argent.
–
La traduction automatique présente encore des risques d’erreurs trop
élevés pour qu’on l’utilise globalement en communications
organisationnelles. Elle aide toutefois à déterminer si un texte doit
être professionnellement traduit, permettant ainsi d’éviter des
traductions inutiles et leurs coûts.
–
Les nouvelles technologies neuronales restent parfois inférieures aux
techniques statistiques précédentes quand celles-ci puisent dans
d’immenses corpus de contenus déjà traduits.
–
On n’est pas dans le tout ou rien avec la traduction automatique. Pour
le moment, l’enjeu principal est celui de choisir les bons outils et
les bonnes stratégies pour chaque communication, dans le but d’obtenir
le maximum de qualité tout en éliminant les risques pour votre
organisation.
Quels enjeux faut-il comprendre?
La sécurité
L’information que l’on entre
dans des moteurs
de traduction
automatique
comme Google Traduction
demeure-t-elle
confidentielle?
Comment ces outils assurent-ils la confidentialité de
l’information?
Comment savoir si un outil de traduction automatique est en mesure
d’assurer la confidentialité de l’information?
Existe-t-il des solutions de traduction automatique qui
garantissent l’absolue confidentialité de l’information traitée?
Une citation qui donne matière à réflexion
« Le 3 septembre 2017, l’agence de presse norvégienne NRK a jeté un
pavé dans la mare. Elle a révélé que des employés de Statoil,
l’entreprise norvégienne de production d’énergie et d’opérations
offshore, ont découvert que des textes saisis par ses employés dans
Translate.com, qui propose notamment de la traduction automatique
gratuite en ligne, sont désormais accessibles à n’importe qui via une
simple recherche sur Google. Cette faille majeure qui a rendu
disponibles des lettres de licenciement, des contrats de travail, mais
aussi des mots de passe et des contrats confidentiels a été relayée par
plusieurs médias.
L’utilisation fréquente […] d’outils de traduction en ligne est une
cause fréquente de perte de propriété intellectuelle. En effet, à
partir du moment où des données sont entrées dans un traducteur en
ligne, elles sont accessibles librement sur le cloud et deviennent la
propriété de l’éditeur de l’outil de traduction. »
Article complet
La technologie
Comment fonctionne la traduction automatique?
Tous les outils fonctionnent-ils de la même façon?
Existe-t-il des technologies plus sûres, plus performantes que
d’autres?
Quelles sont les grandes forces et faiblesses de ces technologies?
Une citation qui donne matière à réflexion
« Les débuts de Google Traduction sont célèbres. Le service a pioché
dans les gigantesques bases de données des documents bilingues de l’ONU
et du Parlement européen. Il y a appliqué ensuite une méthode
statistique pour établir des modèles servant à traduire ces mêmes
textes dans d’autres idiomes. Une méthode critiquée pour ses résultats
parfois inintelligibles et qui semble aujourd’hui complètement
dépassée. Elle a d’ailleurs été abandonnée par Google lui-même l’année
dernière, au profit d’un réseau neuronal prenant davantage en compte
des ensembles de phrases et leur contexte. Si cette nouvelle approche
est encore balbutiante, le résultat est suffisamment bon et étonnamment
pertinent pour que les chercheurs soient persuadés d’avoir trouvé un
nouvel axe de recherche.
Article complet
La qualité
Les contenus traités par des outils de traduction automatique
sont-ils d’une qualité acceptable pour une organisation
professionnelle?
Qu’est-ce que la postédition et dans quelle mesure permet-elle
d’améliorer la qualité d’une traduction automatique?
Une citation qui donne matière à réflexion
« L’ordinateur fait une première traduction puis reçoit une traduction
humaine validée. La machine essaie de comprendre ses fautes et apprend.
Au bout de 100 000 ou 1 million d’exemples, l’ordinateur s’est fait sa
propre représentation de la langue en classant les mots et le
vocabulaire de manière automatique. La traduction gagne en vitesse et
en fluidité même si elle est encore loin de la qualité d’une traduction
humaine. »
Article complet
Les bonnes pratiques
À quelles fins et dans quelles situations peut-on vraiment tirer
profit de la traduction automatique?
Quels sont les meilleurs moyens de se protéger des risques?
Y a-t-il de bonnes pratiques établies et éprouvées?
Une citation qui donne matière à réflexion
, TripAdvisor ou le navigateur Chrome, de Google, le proposent
de plus en plus souvent aux internautes, quand ils ne l’imposent pas
par défaut : « Voulez-vous traduire ce contenu en français? » Si ces
propositions sont plus fréquentes, c’est que le résultat s’est
considérablement amélioré en une poignée d’années. Certes, les textes
traduits sont toujours maladroits, rarement exempts d’erreurs
grammaticales ou de contresens. Mais ils sont souvent de qualité
suffisante pour permettre au lecteur de comprendre le propos; à
condition de ne pas entrer dans les détails ni de s’attacher aux
nuances.
Article complet
Prochain article à surveiller
Notre prochain article sur la traduction automatique portera sur la
sécurité de l’information traitée par des outils de traduction
automatique. Fiez-vous à Versacom pour vous aider à comprendre les
risques et les solutions permettant de vous en protéger.
DeepL : le nouvel outil de traduction automatique qui fait de l’ombre à
Google
Soumis par José Gambín le 28/12/2017.
Les avancées de l’intelligence artificielle et leur application dans le
champ de la traduction automatique n’arrêtent pas de nous surprendre.
Même si nous avons plus l’habitude de nous focaliser sur les erreurs
commises par les traducteurs automatiques, il faut avouer que les
résultats qu’ils obtiennent sont chaque fois meilleurs. Au départ, les
logiciels utilisés se contentaient de remplacer un mot par un autre,
sans prendre en compte le contexte. Ce système n’était donc efficace
que pour chercher du vocabulaire ou traduire des phrases courtes sans
prendre en compte la structure syntactique ni la grammaire. Il a fallu
attendre 2014 pour engager un véritable saut qualitatif. Cette année
là, l’Université de Montréal a réussi, à travers d’un schémas, à ouvrir
à la traduction automatique les portes du deep learning. Le deep
learning, ou apprentissage profond en français, utilise à la fois les
avancées des neurosciences, les réseaux neuronaux artificiels ainsi que
des algorithmes pour améliorer les différents aspects de l’intelligence
artificielle. Jusqu’à aujourd’hui, personne n’avait pu rivaliser avec
le géant multidisciplinaire Google dont le système repose sur un corpus
plurilingue enrichi quotidiennement.
Le 29 août 2017, une entreprise européenne, DeepL, a dévoilé un nouvel
outil de traduction automatique. Même si le nom de cette entreprise est
inconnu, Linguee, le fameux dictionnaire en ligne, se cache derrière.
Linguee offre à ses utilisateurs plusieurs propositions de traduction
trouvées sur Internet, elles sont issues de corpus de documents publiés
sur le Web. Le site permet aussi de consulter la source dans laquelle
ces segments ont été trouvés, l’utilisateur peut donc décider si
celle-ci est digne de confiance ou pas. L’immense base de données de ce
moteur de recherche de traductions, alimenté par des sources fiables
comme l’Union Européenne, sert de point de départ au niveau traducteur
automatique qui peut y apprendre et s’entraîner. Les résultats sont
spectaculaires dans de nombreux domaines : documents techniques,
articles de presse, analyses sportives...
Que se cache-t-il derrière d’aussi bons résultats?
Pour des raisons stratégiques évidentes, l’entreprise n’a pas souhaité
révéler son secret, mais il semblerait logique que son succès soit lié
aux deux facteurs que nous exposerons ci-après :
Dans un premier temps, l’une des clefs du succès d’un traducteur
automatique est la qualité des traductions qui l’alimentent. Cette
philosophie est d’ailleurs la ligne de conduite et l’une des raisons du
succès de la société mère, Linguee. Avant d’être inclus dans leur base
de données, n’importe quel texte doit obtenir une note minimum dans
leur algorithme, validé par avance par un être humain. Face à la
quantité de données manipulée par le géant Google, qui possède, soit
dit en passant, plus d’un million de serveurs et de centres de données
dans le monde, DeepL préfère la qualité.
Dans un second temps, l’application du nouveau paradigme des réseaux
neuronaux ou deep learning a permis une évolution notoire. Il est fort
probable que les programmateurs de ce traducteur automatique aient
utilisé, optimisé et personnalisé un paradigme d’apprentissage basé sur
un des réseaux neuronaux existants.
Mais il demeure facile de tromper un traducteur automatique. Lorsqu’il
s’agit de traduire de longues phrases, des textes d’ordre littéraire,
commercial, ou n’importe quel texte qui implique des connaissances
culturelles, ses compétences sont encore très limitées.
IFRAME: https://www.googletagmanager.com/ns.html?id=GTM-KKM2LLV
Traduction automatique, robots écrivains... voilà la littérature du futur !
Par Nicolas Carreau
Le cabinet de conseil Quantmetry et Deepl, un service en ligne de
traduction automatique, ont configuré une intelligence artificielle
pour qu'elle traduise un ouvrage de 800 pages de l'anglais au français
en douze heures. Une autre IA a, elle, écrit un roman. Assisterons-nous
à l'avènement des robots écrivains ?
Sur les coups de 2 heures du matin, dans la ville endormie, un robot
veille. Il regarde la Lune par la petite fenêtre de sa chambre
mansardée. En admirant l'astre, il a levé sa plume d'oie, une goutte
d'encre est tombée sur sa feuille de vélin et la tache s'agrandit à
mesure que le papier la boit. Le robot constate alors les dégâts et le
voilà encore distrait. Ses pensées vagabondent maintenant dans une
autre direction et il se met à songer à la mer, inspiré par cette
petite mare bleutée. Allez, au travail ! Il fait craquer les jointures
de ses mains d'acier et se relance frénétiquement dans l'écriture de
son grand roman.
Cette scène, aussi singulière qu'elle paraisse, est peut-être en passe
de devenir réalité. Une société spécialisée dans les big data,
Quantmetry, s'est associée à un expert de la traduction automatique
pour traduire un livre de 800 pages en douze heures. Le secret ? Faire
ingurgiter à la bête des milliers d'exemples de tournures de phrases et
de subtilités linguistiques. La traduction est, paraît-il, très fidèle
à la version originale. Mise en abyme : le livre en question
s'intitule, en anglais, Deep Learning, un livre technique sur
l'intelligence artificielle. Le logiciel l'a traduit par Apprentissage
profond. Subtil, en effet.
Pour l'instant, les concepteurs sont modestes : «Elle est parfaite pour
les contenus scientifiques mais elle ne saurait pas retranscrire la
plume, ni le style d'un auteur», explique Alexandre Stora, le
responsable de Quantmetry, au site Futura-sciences. Mais d'autres sont
plus présomptueux, comme Ross Goodwin. Cet artiste américain et
spécialiste des codes a équipé une Cadillac d'une caméra, d'un micro,
d'une horloge et d'un GPS. Il a conduit la voiture de New York à la
Nouvelle-Orléans et, à l'arrivée, son intelligence artificielle, forte
des données récoltées, a produit un texte baptisé «1 the Road»,
référence au On The...
Traduction automatique : traduire comme on joue au Go ?
par François Yvon, billet paru dans le Journal du CNRS.
Les récents progrès réalisés dans le domaine de l’intelligence
artificielle impressionnent, comme l’a montré la victoire du logiciel
AlphaGo sur le champion du monde de Go. Il y a pourtant des domaines
qui résistent encore et toujours à la mise en algorithme, notamment la
traduction. François Yvon, spécialiste du sujet, enseignant-chercheur à
l'Université Paris-Sud et chercheur au Limsi, nous explique pourquoi.
La récente victoire du logiciel AlphaGo surclassant le champion du
monde de Go a relancé les spéculations sur l’intelligence des machines,
ainsi que sur les limites et les dangers de leur développement. De
nombreuses compétences humaines semblent pourtant résister à la mise en
algorithme. Parmi celles-ci, la traduction, dont les efforts
d’automatisation, entamés dès les années 1950, continuent de se heurter
à des difficultés apparemment insurmontables. La méthode d’AlphaGo
ouvre-t-elle de nouvelles perspectives pour résoudre cette tache,
souvent présentée comme une des plus difficiles pour une intelligence
artificielle ?
trad alpha 515088082i
La recette du succès d’AlphaGo est bien connue et prolonge une
tradition de recherche déjà ancienne sur la modélisation des jeux. Le
programme aborde une partie comme une succession de décisions locales
et doit donc, pour bien jouer, développer deux compétences :
- sélectionner le meilleur coup dans l’ensemble des coups autorisés,
étant donné l’état courant du jeu, sur la base d’une évaluation de son
bénéfice à long terme. Cela implique de prendre en compte toutes les
réponses possibles de l’adversaire, puis les réponses à ces réponses,
etc. Explorer exhaustivement cet arbre de possibilités est infaisable
et demande de mettre en œuvre des stratégies heuristiques, qui font
l’objet d’un apprentissage par AlphaGo ;
- évaluer une position comme étant plutôt gagnante ou perdante, cette
fonction d’évaluation étant également l’objet d’un apprentissage.
AlphaGo réalise ces deux apprentissages avec des réseaux de neurones
artificiels dits profonds, en analysant à la fois des parties réelles
(jouées par des joueurs experts), mais également à partir d’un très
grand nombre de parties artificielles, produites en faisant s’affronter
deux versions du logiciel.
Des traductions automatiques complexes à évaluer
Qu’en est-il de la traduction automatique (TA) ? Comme pour le Go, les
approches les plus efficaces à ce jour reposent essentiellement sur un
apprentissage automatique. La traduction est ainsi modélisée comme une
succession d’actions élémentaires, consistant à ajouter un mot à la
traduction à chaque itération du système. Un bon système de TA doit
donc savoir quel prochain mot produire parmi tous les mots de son
dictionnaire, en tenant compte des mots produits antérieurement, ainsi,
naturellement, que de la phrase à traduire. L’utilisation de méthodes
statistiques similaires à celles déployées pour AlphaGo pour apprendre
à faire ces choix a permis des améliorations considérables de la TA.
Quelles en sont les limites ?
"L’évaluation automatique de la qualité du résultat d’une traduction
reste un défi difficile à relever. "
Une première observation est que le calcul du meilleur coup à jouer
demande que l’on puisse évaluer automatiquement le bénéfice escompté de
chaque action : au Go, cette évaluation est simple et se déduit du
résultat (gain ou perte) de la partie conduite à son terme. Il en va
autrement en traduction : l’évaluation automatique de la qualité du
résultat d’une traduction reste un défi extrêmement difficile à
relever.
Notons ensuite que, dans cette analogie, jouer un coup équivaut à
produire un mot ; mais quel est l’équivalent d’une partie ? Les
systèmes actuels traduisent chaque phrase indépendamment des autres
phrases d’un texte : la « position » qui sert de base à chaque
évaluation est ainsi réduite à un petit nombre de mots : de phrase en
phrase des motifs se répètent, permettant au système de faire des
généralisations utiles. Cette approche reste toutefois aveugle aux
dépendances entre phrases et s’avère incapable par nature de garantir
la cohérence des documents ainsi produits, que cette cohérence soit
stylistique, discursive, sémantique ou référentielle.
Des connaissances humaines difficiles à modéliser
Ce qui nous amène à la seconde observation : apprendre demandant des
exemples, en traduction, il faudra donc disposer d’un vaste corpus de
traductions, réalisées si possible par des traducteurs qualifiés. La
difficulté est que l’activité de traduction humaine porte sur des
textes très particuliers : si l’on trouve facilement des traductions de
romans, de textes juridiques, de documentations techniques, de sites
Web ou autres supports de communication, les traductions de tweets ou
de discussions sur des forums sont beaucoup plus rares, sans parler des
traductions de conversations spontanées. Notons que, même les genres
textuels les mieux représentés n’existent pas dans les mêmes quantités
pour tous les couples de langues : des océans de données pour le couple
anglais-français, quelques gouttes pour le couple malgache-inuktitut.
"La traduction demande des connaissances sur les langues, mais aussi
sur les cultures et sociétés entre lesquelles les écrits circulent."
L’approche consistant à engendrer des données artificielles, par
exemple en traduisant via une langue tierce dite pivot (le plus souvent
l’anglais), est ici peu opérante, faute de pouvoir garantir la
fiabilité de ces pseudo-traductions. Contrairement au Go, dont les
règles, une fois programmées, permettent de produire à volonté des
coups licites et des parties formellement correcte, la langue se laisse
moins facilement modéliser. La génération de textes artificiels
syntaxiquement corrects est une entreprise hasardeuse, et encore plus
leur traduction automatique.
Dernier problème, sans doute le plus ardu : la traduction n’est pas une
activité naturelle. Elle demande des professionnels rompus à l’exercice
et bien formés, ayant accumulé des connaissances variées, à la fois sur
les langues source et cible, mais également sur les cultures et
sociétés entre lesquelles les écrits circulent. Ces connaissances
doivent être simultanément mobilisées, par exemple pour retranscrire
les marqueurs linguistiques de politesse, dont l’emploi correct
requiert une analyse fine du statut et des relations entre les
différents acteurs d’une scène. Ces connaissances restent souvent
implicites dans les textes ou dans les exemples de traduction, et
l’approche statistique ne pourra jamais les apprendre que par
approximation, s’exposant à des erreurs parfois catastrophiques.
"Un domaine en plein essor auprès du grand public"
La traduction automatique progresse année après année, et va continuer
de s’améliorer grâce au développement de nouveaux algorithmes capables
d’intégrer plus efficacement les données, ressources linguistiques et
connaissances disponibles. Elle produit déjà des résultats utilisables
pour de nombreuses applications, atteignant même des niveaux de qualité
remarquables pour les documents les plus stéréotypés, par exemple les
notices techniques. L’activité de correction humaine des traductions
automatiques s’industrialise et permet, dans certains contextes, de
produire à faible coût des traductions acceptables et vérifiées,
facilitant le commerce et les échanges internationaux.
La TA connaît également un fort succès auprès du grand public, qui
l’utilise pour assimiler des textes écrits dans une langue inconnue,
mais également, de manière détournée, pour rédiger en langue étrangère,
parfois également dans des contextes d’apprentissage. Mais il est peu
probable que, dans cet exercice, la machine surpasse un jour l’humain,
sinon pour des tâches de traduction triviales.
Entre comparaison et raison : la qualité de la traduction automatique
Une comparaison détaillée des résultats de la traduction automatique
statistique avec la traduction humaine met en évidence les points forts
de la traduction humaine.
Par Éric Poirier, docteur en traduction et traducteur agréé
Depuis le début des années 2000, les modèles de traduction automatique
statistique (TAS) connaissent des progrès importants dont les plus
récentes méthodes sont expliquées dans Statistical Machine
Translation^1, de Philipp Koehn, professeur à l’université
Johns-Hopkins et figure de proue de la TAS. On retiendra surtout que
ces systèmes utilisent comme point de départ d’immenses corpus de
textes parallèles (déjà traduits par des professionnels) sans lesquels
l’approche statistique ne produirait rien de valable. Pour les
entreprises, les services de traduction automatique de Google
Traduction, offerts gratuitement dans plus de 100 langues, se
présentent aujourd’hui comme un outil d’optimisation de site Web. Mais
qu’en est-il de la qualité de ces traductions d’un point de vue
professionnel?
Dans un article publié en 2012 dans L’Actualité langagière^2, André
Guyon, expert-conseil en technologies de l’information et traducteur
autonome, constate que « la traduction automatique donnera souvent des
phrases d’aussi bonne qualité, voire meilleures, que celles de la
mémoire de traduction quand on a affaire à des correspondances floues
de haute qualité (pourcentage de correspondance élevé) ». Bref, la
qualité semble être au rendez-vous, au moins dans le cas de certains
types de correspondances. Et si les progrès techniques continuent leur
évolution (rapide) des dernières années, on peut envisager une
amélioration continue et sensible des résultats produits par la
machine. Que peut-on prévoir alors des différences récurrentes qui
subsisteront entre les traductions des systèmes de TAS et les
traductions professionnelles? Cette question se pose avec d’autant plus
d’acuité qu’on trouve de plus en plus d’études et de publications qui
portent sur la comparaison entre les deux modes de traduction.
Un constat qui peut surprendre
La plupart des chercheurs et des spécialistes s’entendent sur le fait
que la traduction machine de type probabiliste (TAS) est principalement
défaillante sur le plan de la formulation en langue d’arrivée. Ce qui
semble étonnant, par contre, c’est que le problème récurrent (le plus
fréquent et le plus important en nombre) n’est pas celui de la
traduction proprement dite, c’est-à-dire le résultat du transfert du
sens en langue d’arrivée (le terme résultat est ici important, car il
n’y a pas à proprement parler de transfert du sens) mais celui des
relations grammaticales et textuelles entre les mots, termes et
expressions transférés en langue cible. Cette situation concorde avec
l’expérience subjective de certains langagiers selon laquelle les
textes contiennent peu de notions, de concepts ou d’éléments de sens
entièrement inédits, de sorte que leur traduction, assez bien établie,
présente elle aussi un caractère prévisible que les statistiques
textuelles permettent justement de mettre au jour. Un autre problème de
la TAS, qui est étroitement lié à l’absence d’évaluation de la fluidité
de la formulation en langue d’arrivée, est le fait que la TAS donne
souvent lieu à des formulations (parties d’énoncés ou de segments) qui
sont totalement dépourvues de sens. Même si les traductions humaines ne
sont pas totalement exemptes de ces erreurs, ce qui caractérise la TAS
c’est la récurrence et donc l’importance de ces problèmes dans les
textes traduits.
Ces conclusions concordent tout à fait avec les résultats d’une étude
réalisée en 2013 par l’auteur de ces lignes sur les ruptures
lexicogrammaticales (les propriétés formelles) de la traduction d’un
texte produite (et révisée) par des traducteurs professionnels qui sont
mises en évidence par comparaison avec la traduction d’un système de
TAS (Google Traduction, en l’occurrence)^3.
L’analyse et la catégorisation des différences textuelles constatées
systématiquement dans la comparaison des segments des deux modes de
traduction permettent de dégager trois principaux types de ruptures de
la traduction humaine avec la traduction machine parmi une dizaine de
catégories de ruptures entre les segments traduits automatiquement et
les segments traduits par des professionnels (fait important, les
ruptures ont été mesurées entre les deux traductions et non pas entre
le texte source et le texte cible). Le tableau qui suit présente les
données quantitatives sur ces trois types de ruptures ainsi que
quelques exemples relevés dans la comparaison des deux modes de
traduction étudiés : la traduction effectuée par Google d’un document
publié par la Banque du Canada et sa traduction officielle diffusée sur
le site Web de l’organisme. Le pourcentage indiqué désigne le rapport
entre le nombre de ruptures de la catégorie sur l’ensemble des 1593
ruptures relevées dans le corpus. Les exemples fournissent les éléments
essentiels du contexte (même si les segments ne sont pas complets) et
les ruptures sont indiquées en caractères gras.
Exemples de ruptures entre la TAS et la traduction professionnelle
Types de rupture
Texte source
Traduction Google
Traduction humaine
Variantes codées - 344 sur 1593 (21,6 %)
a) The expected pace of price increases has fallen (3);
b) about the outlook;
c) Firms affected by (2);
d) For the third consecutive quarter;
e) sales growth;
f) indicating that;
g) to expand their workforces;
h) improvements in demand
i) however
a) Le rythme attendu de la hausse des prix a baissé (3);
b) quant aux perspectives;
c) Les entreprises affectées (2);
d) Pour le troisième trimestre consécutif;
e) une croissance des ventes;
f) ce qui indique que;
g) élargir leurs effectifs;
h) amélioration prévue de la demande;
i) cependant
a) Le rythme prévu d’augmentation des prix a fléchi (3);
b) à l’égard des perspectives;
c) Les firmes touchées (2);
d) Pour le troisième trimestre de suite;
e) une progression de leurs ventes;
f) ce qui signifie que;
g) augmenter leurs effectifs;
h) redressement prévu de la demande;
i) toutefois
Variantes fonctionnelles - 301 sur 1593 (18,9 %)
a) Responses to the autumn survey indicate that (2);
b) Western Canada;
c) Firms reported;
d) suggesting that;
e) firms reported an improvement
a) Les réponses de l’enquête de l’automne indiquent que (2);
b) l’Ouest du Canada;
c) Les entreprises ont déclaré;
d) ce qui suggère que;
e) Les entreprises ont rapporté une amélioration
(a) Les résultats de l’enquête de l’automne révèlent que (2);
b) l’Ouest du pays;
c) Les entreprises ont indiqué;
d) ce qui donne à penser que;
e) Les entreprises ont observé une amélioration
Postéditions obligatoires - 292 sur 1593 (18,3 %)
a) The balance of opinion on employment edged up in the spring survey
(Chart 4). (3)
b) Indicators of pressures on production capacity are (2)
a) Le solde d'opinion sur l'emploi a légèrement up dans l'enquête du
printemps (Chart 4). (3)
b) Indicateurs de tensions sur les capacités de production sont (2)
a) Le solde des opinions concernant le niveau de l’emploi s’inscrit en
légère hausse dans l’enquête du printemps (Graphique 4). (3)
b) Les indicateurs des pressions s’exerçant sur la capacité de
production sont (2)
Dans le tableau précédent, le nombre entre parenthèses renvoie au
nombre de ruptures de même type constatées dans le segment cité. Les
variantes codées désignent des ruptures d’origine lexicale ou
syntagmatique qui impliquent une substitution simple (pas de
chassé-croisé, de réduction ou d’expansion dans les segments en cause)
dont la relation synonymique est attestée par le dictionnaire en ligne
du Centre de recherche inter-langues sur la signification en contexte
(CRISCO) de l’Université Caen Normandie. Ainsi, les variantes
fonctionnelles constituent une classe résiduelle qui réunit des mots de
même sens en contexte qui ne sont pas des synonymes attestés dans le
dictionnaire consulté. En pratique, les postéditions obligatoires
désignent des ruptures qui représentent une faute ou une erreur de type
grammatical ou autre dans le texte d’arrivée et qui nécessitent par
conséquent une intervention corrective par un locuteur natif de la
langue d’arrivée.
Quelques statistiques à l’appui
Une proportion de 21,6 % des ruptures lexicogrammaticales provient de
l’emploi par les humains de synonymes codés des mots et expressions
plutôt que du correspondant direct « statistiquement significatif »
(abstraction faite bien sûr des autres mots déjà présents dans le texte
traduit ou qui s’ajouteront à mesure que l’on traduit), tandis qu’un
autre groupe de 18,9 % de ces différences provient des variantes
fonctionnelles, ce qu’on pourrait appeler des raccourcis pragmatiques
et textuels qui découlent de l’interprétation du texte source et du
contexte d’énonciation (voir les exemples dans le tableau). Enfin, 18,3
% des différences proviennent des postéditions obligatoires,
c'est-à-dire des erreurs de formulation et de grammaire (accords,
régime incorrect, mauvaise préposition, etc.) que l’on trouve dans le
texte traduit par la TAS mais qui sont absentes de la traduction
humaine. À eux seuls, ces trois types de différences entre les deux
modes de traduction représentent 58,8 % de toutes les différences
constatées entre la traduction machine et la traduction humaine.
Ces données permettent ainsi de chiffrer le constat exprimé
précédemment selon lequel les lacunes des systèmes de traduction
automatique proviennent principalement d’une mauvaise formulation en
langue cible des concepts transférés de la langue source. En partant du
principe que la traduction humaine est correcte et stylistiquement
acceptable, on peut affirmer que la TAS échoue 58 % du temps en
traduction spécialisée (le corpus étudié réunissait des extraits de
textes économiques et financiers) par des choix lexicaux incorrects ou
maladroits (40 %) ou par des erreurs de formulation en langue d’arrivée
(18 %). Les variantes fonctionnelles auxquelles recourent fréquemment
les traducteurs rappellent hors de tout doute que la traduction machine
ne réfléchit pas (encore) et que seuls les humains peuvent faire des
analogies et des inférences avec nos univers culturels ou
spatio-temporels. La dernière rupture de l’exemple a) montre bien que
la différence entre les deux traductions peut relever à l’occasion du
choix du registre; général en TAS et spécialisé en traduction humaine.
Et l’interprétation des différences entre les deux modes de traduction
confirme aussi que les critères de qualité en traduction ne sont pas
toujours discrets et polarisés.
Dans la comparaison entre la traduction machine et la traduction
humaine, il ne faut pas opposer la gratuité des systèmes de TAS aux
services tarifés de professionnels mais plutôt aux coûts élevés que
risquent d’entraîner les (nombreuses) erreurs de traduction des
systèmes.
Dans l’équation complexe de la qualité de la prestation des services de
traduction, les risques que présente la traduction automatique et que
met en évidence l’étude des ruptures lexicogrammaticales doivent être
rapprochés avec les points forts de la TAS, à savoir sa gratuité
relative (beaucoup de ressources doivent être consacrées à la
constitution des corpus et à l’optimisation des systèmes), sa
formidable rapidité d’exécution et, vraisemblablement, son indéniable
justesse dans le transfert linguistique, laquelle est bien entendu
fonction de la qualité des corpus bilingues mis à contribution en amont
du processus. En matière de traduction, un service hautement culturel,
dont la réussite se mesure de manières très différentes selon le type
de texte à traduire (entre les pôles des textes littéraires et
pragmatiques), on constate toujours que la perfection n’existe ni chez
l’humain ni chez la machine. C’est en faisant preuve de pragmatisme
devant l’inaccessible quête de la perfection qu’il faut envisager la
cohabitation des produits et services de TAS avec la traduction
professionnelle, cohabitation qui est d’ailleurs devenue réalité. Dans
ce sens, comme pour ce qui est de tous les produits et services de
l’intelligence artificielle (calculs complexes de théorèmes, traitement
de la parole, interprétation d’images, robotique, jeux vidéo, systèmes
experts et apprentissage automatique, etc.), la machine ne remplacera
jamais l’être humain et il y va de l’intérêt de tous de confier à
chacun des tâches dans lesquelles il excelle.
Dans la logique marchande, les traducteurs ont tout intérêt à bien
connaître les points forts et les points faibles de la TAS pour mieux
mettre en évidence leur valeur ajoutée. Malgré tout le cynisme qu’a pu
susciter l’arrivée des services de TAS, il faut envisager cette percée
comme une avancée technique et ne pas hésiter à opposer à cette
technologie des données objectives issues d’une comparaison
systématique avec les résultats optimums obtenus par des professionnels
de la traduction.
Éric Poirier, est professeur agrégé au Département de langues modernes
et de traduction à l’Université du Québec à Trois-Rivières, où il
enseigne depuis 2011.
De quoi la traduction automatique est-elle le nom ?
par Caroline Rossi
Depuis l’arrivée, à l’automne 2016, de nouveaux systèmes de traduction
automatique dite « neuronale », basés sur des techniques issues de la
recherche sur l’intelligence artificielle, la perspective de mettre
l’automate au service du traducteur interroge. Mais cette « intelligence »,
comment l’a-t-on pensée ?
« Je pense que Sarkozy à lui seul ne saurait vous déprimer. Donc, ce qui vous
déprime, c’est ce dont Sarkozy est le nom. Voilà de quoi nous retenir : la
venue de ce dont Sarkozy est le nom, vous la ressentez comme un coup que
cette chose vous porte, la chose probablement immonde dont le petit Sarkozy
est le serviteur. » Alain Badiou, De quoi Sarkozy est-il le nom ? Lignes,
2007
Qu’est-ce qui déprime les traducteurs ? Pour répondre à cette question
hélas bien actuelle, la chronique linguistique « Johnson » publiée le
27 mai dernier dans l’hebdomadaire britannique The Economist identifie
deux types de pressions : une pression matérielle liée à la concurrence
internationale qui entraîne une baisse importante des tarifs, et une
pression additionnelle issue de l’usage désormais généralisé de moteurs
de traduction automatique toujours plus performants, susceptibles de
réduire le travail du traducteur à un toilettage rapide de textes qu’il
n’aura pas écrits. Mais la traduction automatique constitue-t-elle
véritablement une quête technologique sans lien avec les pressions du
premier type ?
Lorsque les chercheurs interrogent les traducteurs, ceux-ci évoquent
volontiers les « frictions cognitives » liées à la segmentation
excessive des textes [1] qu’occasionne le travail dans un environnement
de traduction assistée par ordinateur (TAO). Pour mieux comprendre ce
que cela signifie, deux types d’approches sont actuellement
privilégiés. D’une part, les approches cognitives et ergonomiques, qui
placent le traducteur au centre de leurs préoccupations. Elles
cherchent à appréhender les conséquences des nouvelles pratiques
affectant la traduction dite pragmatique (non littéraire) et à analyser
tous les facteurs qui exercent une influence sur le travail, sur le
bien-être et sur l’identité des traducteurs [2]. D’autre part, les
approches ethnographiques, qui s’attachent à rendre compte de la
perception et du vécu subjectif de ces derniers.
En substance, les chercheurs qui s’intéressent à ces questions nous
apprennent que si l’usage désormais généralisé des mémoires de
traduction (bases de données permettant de garder en mémoire des
traductions déjà effectuées et de les convoquer à nouveau lorsque l’on
rencontre des passages similaires) et l’intégration courante de la
traduction automatique (TA) au poste de travail du traducteur
permettent de travailler plus vite et de garantir la cohérence
terminologique et phraséologique du texte traduit, les traducteurs
perçoivent ces éléments comme autant de sources de frustration, car
leur usage est presque toujours lié à des exigences de productivité
accrues.
Ne faut-il pas s’étonner de ces résultats discordants ? Comment
expliquer que dans un contexte où les progrès technologiques sont
extrêmement rapides, la perspective de mettre l’automate au service du
traducteur semble toujours aussi lointaine ? La question se pose avec
une acuité particulière depuis l’arrivée, à l’automne 2016, de nouveaux
systèmes de traduction automatique dite « neuronale », basés sur des
techniques issues de la recherche sur l’intelligence artificielle.
Traduction automatique neuronale Caroline Rossi
Schéma d’une traduction assistée par ordinateur
En première approximation, on pourrait répondre en disant que les
concepteurs de machines se soucient peu des traducteurs, et vice versa.
Il existe en effet un écart considérable entre les travaux de recherche
dont les nouvelles technologies de TA sont issues, et ceux qui
s’attachent à décrire les usages et perceptions actuels. Il s’agit de
deux types de discours portant sur la traduction, qui se développent
indépendamment l’un de l’autre depuis des décennies. Dès la fin des
années 1980, Antoine Berman distinguait d’ailleurs la traductique,
définie comme « la théorie computationnelle des processus traductifs
régissant l’ère technologique », de la traductologie qu’il appelait
alors de ses vœux et qui caractériserait « la réflexion de la
traduction sur elle-même à partir de sa nature d’expérience ».
Pour éclairer cet antagonisme, on peut utiliser une méthode à laquelle
la linguistique cognitive a donné ses lettres de noblesse : l’étude des
métaphores, non pas comme figures de style, mais comme éléments
constitutifs d’une pensée et d’une culture [3]. Pour l’auteure de ces
lignes, qui est traductologue, il s’agit de comprendre le discours de
la recherche Google, que l’on pourrait rattacher au champ de la
traductique. Que dit Google ? Dans un petit corpus de dix articles très
récents, issus de la recherche Google sur la traduction automatique,
les composés les plus fréquemment utilisés pour parler de traduction
montrent qu’elle est avant tout comprise comme une tâche modélisable,
prise en charge par un système (informatique) : translation system,
translation task, translation model. Cette tâche est conçue comme un
calcul qui donne des résultats, d’où les composés également fréquents :
translation performance, translation probabilities, translation
results. S’il surprend toujours le traducteur humain et le
traductologue, pour qui la traduction représente bien autre chose
qu’une tâche ponctuelle et est irréductible au calcul, le recours à ce
premier ensemble de métaphores n’est pas neuf. Il définit plutôt la
conception traditionnelle de la traduction automatique, puisque c’est
avec les premiers calculateurs qu’est apparue l’idée d’automatiser la
traduction, après la Seconde Guerre mondiale.
Un second ensemble de métaphores repérées dans notre petit corpus
permet de cerner une conception beaucoup plus récente de la traduction
automatique : celle qui est issue de travaux sur l’intelligence
artificielle. La métaphore fondatrice est celle du cerveau-ordinateur,
et les dernières modélisations utilisées l’ont renforcée, puisque l’on
parle désormais de « réseaux de neurones » pour décrire l’architecture
des systèmes. Plus saisissant encore : alors que les systèmes de TA
statistique étaient entraînés sur de grands corpus de textes traduits,
les systèmes de TA dits « neuronaux » sont le produit d’un
apprentissage qui, pour rendre compte des modélisations en réseau à
plusieurs niveaux, est même qualifié de « profond ». On le voit, la
métaphore se déploie pour accompagner les progrès de la discipline,
suggérant que l’on se rapproche toujours plus du fonctionnement du
cerveau humain, peut-être même de la pensée humaine à laquelle on
attribue le plus souvent la caractéristique d’être profonde, ou
superficielle. Est-ce donc le cerveau du traducteur qui se trouve mis à
nu ? Même si les publications de Google ne promettent rien de tout cela
(et le traducteur n’est pas mentionné une seule fois dans notre
corpus), le réseau métaphorique le suggère inévitablement. Enfin, le
dernier composé le plus fréquemment utilisé dans les articles que nous
avons rassemblés concerne la toute dernière innovation de Google : la
traduction sans apprentissage, appelée « zero-shot translation ». Les
progrès des modèles d’apprentissage profond se mesurent en effet à leur
capacité de travailler à partir d’un seul stimulus (one-shot) [4]. La
traduction sans apprentissage représente la toute dernière prouesse
technologique, qui consiste à produire une sortie de traduction
automatique dans une langue à laquelle le système n’a jamais été
exposé. Cette fois, c’est la métaphore du jeu qui est utilisée, cette
activité essentielle au développement de l’enfant dès son plus jeune
âge, mais aussi à la socialisation, tout au long de la vie. Le jeu, au
cours duquel on peut réussir à un tir gagnant sans entrainement (« Shot
! »), à condition d’avoir tenté sa chance (« I’ll give it a shot ! »).
Ces machines qui tentent leur chance au jeu de la traduction, et dont
on nous dit qu’elles y parviennent plutôt bien, sont à n’en pas douter
conçues comme des automates dont l’ « intelligence » rivalisera
peut-être un jour avec celle de l’homme. On est bien loin de l’outil
que la main du traducteur pourrait façonner [5] : ce que promeut
Google, c’est bien une machine à traduire, un mécanisme qui ne laisse
plus à l’homme la liberté du jeu.
Ces nouvelles machines à traduire ne suffisent probablement pas à
déprimer les traducteurs, mais l’automatisation qu’elles annoncent
n’est pas sans rappeler le passage de la manufacture préindustrielle à
ce que Marx appelait la « Machinerie » industrielle. Au seuil d’un
chapitre consacré à ces développements, Marx cite les Principes
d’économie politique de John Stuart Mill : « On peut se demander si
toutes les inventions mécaniques faites jusqu’ à ce jour ont allégé le
labeur quotidien d’un quelconque être humain [6]. » Il y a
malheureusement fort à parier que, dans le contexte actuel, les progrès
de la traduction automatique ne seront pas de nature à abréger les
journées de travail du traducteur.
__________________________________________________________________
Caroline Rossi est Maître de Conférences à l’Université Grenoble Alpes et
éditrice en chef de la revue de l’Association française de linguistique
cognitive.
1. En général, il faut travailler phrase par phrase, parfois sur des
segments encore plus courts, et si le texte est long on perd la vue
d’ensemble : tout ceci est très bien expliqué dans les publications
récentes de Sharon O’Brien (Dublin City University), ou de Maureen
Ehrensberger-Dow (Zurich University of Applied Sciences)
2. Ce sont les termes d’Élisabeth Lavault-Olléon, qui a promu
l’approche ergonomique dès 2010 à l’université Grenoble Alpes.
3. Les premiers travaux sont ceux d’un linguiste et d’un philosophe
américains, et l’ouvrage est traduit en français : Lakoff, George &
Johnson, Mark. 1985. Les métaphores dans la vie quotidienne,
traduction de M. de Fornel en collaboration avec J.-J. Lecercle.
Minuit.
4. « One-shot generalization » est le terme qui décrit en anglais
cette aptitude à générer un ensemble d’éléments similaires à partir
d’un seul élément, qu’il s’agisse de portions de textes ou d’images
par exemple.
5. Notre corpus d’articles Google ne contient aucune mention d’outils
de traduction ou d’aide à la traduction.
6. Karl Marx. Le Capital, Livre I. Le procès de production du capital,
p. 416. Traduction établie sous la direction de Jean-Pierre
Lefebvre, publiée en 1993 aux PUF.
La traduction automatique en 2018, révolution ou désillusion ?
Par Aurelien DEIXONNE le 6 mars 2018
Tweet
Pin It
Traduction automatique
Quelle prodigieuse invention que le champ de traduction du TARDIS. En
effet, dans la nouvelle série de 2005 de Doctor Who, le TARDIS permet
de comprendre n’importe quel langage.
Tardis-doctor-who-traduction-instantanee
Le fameux TARDIS de Doctor Who (série BCC)
Nous sommes évidemment bien loin de telle prouesse. Pourtant, le
secteur de la traduction est en train de se digitaliser et de proposer
des solutions de plus en plus alléchantes. Ainsi, nous entendons parler
de traduction automatique venant révolutionner le domaine. Pourtant, on
se souvient bien de Justin Trudeau, Premier Ministre canadien, dont la
traduction en 2016 fut un réel fiasco. Voici le fameux extrait :
IFRAME: https://www.youtube.com/embed/9LnjdfpiFS8?feature=oembed
Toile de Fond vous propose aujourd’hui de faire une incursion dans le
milieu de la traduction.
La traduction révolutionnée par Internet
Le marché de la traduction
Il y a aujourd’hui plus de 6000 différentes langues parlées dans le
monde. Avec 200 pays et plus de 7 milliards de personnes sur notre
globe, la traduction est un secteur en constante progression. Le marché
de la traduction se situerait à 45 milliards de dollars en 2020 avec
une croissance annuelle aux alentours de 6%. Ce marché représenterait
plus de 640 000 traducteurs ou interprètes et plus de 18 000 de
sociétés.
Ce marché en pleine expansion connait une véritable révolution
technologique avec l’apparition d’Internet et l’usage de nouvelles
technologies.
Internet et ses solutions
La traduction automatique
Nous avons tous utilisé un jour ou l’autre Reverso, WordReference,
Linguee.com ou encore Google Translate. Il y a encore quelques années,
bon nombre de traductions laissaient à désirer, elles étaient
approximatives. Les programmes se sont entre temps fortement améliorés.
Créé en 2006, Google Translate traduit plus de 100 milliards de mots
par jour pour plus de 500 millions d’utilisateurs. C’est ce qu’on
appelle la traduction automatique.
Traduction automatique Reverso
Exemple de traduction automatique réalisée par Reverso
De façon simple, la traduction automatique est une traduction
effectuée par ordinateur, sans intervention humaine. Ce processus
existe depuis les années 1950 et repose sur trois systèmes :
Basé sur les règles : le programme associe règles grammaticales,
linguistiques et dictionnaires de mots courants. Ils sont souvent
améliorés par l’ajout de dictionnaires de langage spécifiques,
comprenant les terminologies utilisées dans certains secteurs ou
disciplines.
Basé sur les statistiques : le programme ne connait pas de règle
linguistique, il analyse des banques de données importantes pour
chaque langue. Il permet des traductions plus fluides mais souvent
moins cohérentes.
Basée sur les algorithmes neuronaux (NMT) : cette nouveauté permet
aux moteurs de traduire par le biais de plusieurs processeurs qui
sont reliés comme les neurones d’un cerveau. Ce système est de plus
en plus utilisé car il permet des traductions de plus grande
qualité. Il s’agit d’un apprentissage supervisé : la machine
propose une réponse puis reçoit la solution. Elle ajuste ensuite
son traitement.
Pourtant, ces solutions restent limitées. La machine traduit nos
propos grâce à des algorithmes d’Intelligence Artificielle et une
volumineuse banque de données de texte déjà traduits.
Cependant, il est impossible pour la machine de traduire de l’humour
ou des phrases bien trop compliquées.
L’homme reste plus fiable que la machine
L’International Interpretation and Translation Association et
l’université de Sejong en Corée du Sud ont récemment organisé une
compétition de traduction. Quatre professionnels ont été confrontés à
Google Translate, Systran et l’application Papago de Naver. Ils
devaient traduire quatre textes littéraires et non littéraires de
l’anglais vers le coréen et du coréen vers l’anglais en moins de 50
minutes.
IFRAME: https://www.youtube.com/embed/A4_kVmMlELo?feature=oembed
Bien que les programmes aient été 5 fois plus rapides, ils ont obtenu
un score de 28 points sur la qualité de la traduction. Les humains ont
remporté la bataille avec un score de 49 points sur 60. Ces programmes
peuvent suffire sur des traductions banales et quotidiennes. Cependant,
des textes business, littéraires ou tout simplement longs, vont
nécessiter un traducteur humain.
En effet, une langue a son propre humour, ses codes éthiques et
sociétaux, elle évolue au fil du temps. Le texte s’inscrit dans un
contexte et peut nécessiter un langage familier ou au contraire
soutenu. Ces niveaux de complexité sont trop élevés pour la machine.
La technologie, support clé des traducteurs
Les sociétés de traduction ont bien cerné l’utilité de ces
technologies comme avantage concurrentiel. Leurs clients nécessitent
des traductions toujours plus rapides et de qualité. C’est notamment le
cas de Textmaster qui utilise les technologies de traduction pour
améliorer la rapidité et l’efficacité de ses traductions.
Cette agence de traduction complètement numérique se base sur une
complémentarité humains/machine pour offrir des traductions de qualité
dans plus de 50 langues, et ceci en un temps minimal. La qualité
humaine repose sur leurs traducteurs experts exclusivement natifs qui
sont notés systématiquement après une traduction. Pour améliorer cette
efficacité, TextMaster a développé Memento™ qui sauvegarde les
précédentes traductions réalisées et identifie les répétitions. Cela
permet aux clients de modifier une partie de leurs fichiers en temps
réel et ce à moindre coût.
L’agence propose aussi des intégrations directement aux interfaces de
vos clients. Cette API permet ainsi d’économiser du temps et
d’automatiser le processus.
L’expertise humaine combinée à la technologie digitale permet ainsi à
l’agence de livrer les commandes en moins de 24h en moyenne.
IFRAME: https://player.vimeo.com/video/159184751
Il ne faut donc pas croire qu’il y a une guerre entre traducteurs
automatiques et professionnels humains. Au contraire, il y a une réelle
complémentarité, les seconds pouvant ainsi gagner en qualité,
compétitivité et réactivité. La technologie de mémoire de traduction de
TextMaster en est un exemple concret. Si vous souhaitez en savoir plus
je vous invite à découvrir leur site Internet où tout est clairement
expliqué.
Mais, Aurélien, n’as-tu pas entendu parler des Intelligences
Artificielles (IA) qui ont appris une langue sans dictionnaire ? Qu’en
est-il des oreillettes Pilot et des autres produits de ce genre ?
Intelligence Artificielle et gadgets technologiques, le futur de la
traduction ?
Le Machine Learning des Intelligences Artificielles linguistiques
Plusieurs Intelligences Artificielles bilingues pouvant apprendre une
nouvelle langue sans utiliser un dictionnaire existant et sans aide
humaine ont été développées ces derniers temps. C’est notamment ce
qu’ont réussi à faire indépendamment Mikel ARTETXE, ingénieur
informaticien à l’universalisons de San Sebastian, et Guillaume LAMPLE,
ingénieur français travaillant dans le département de l’IA de .
Pour se faire, ils ont développé une 4^ème méthode : l’apprentissage
automatique non supervisé. Pour se faire, ils repèrent les mots qui
sont associés ensembles (fourchette, couteau par exemple), quelle que
soit la langue. La machine va alors avoir un mapping de l’ensemble de
ces connexions. L’Intelligence Artificielle va ensuite comparer chaque
mapping dans chaque langue et ainsi obtenir son dictionnaire bilingue.
C’est ce qu’on appelle le « Machine Learning ».
Intelligence Artificielle Traduction Automatique
L’Intelligence Artificielle autodidacte ?
A l’heure actuelle, cette IA peut traduire des phrases complètes.
Pour se faire, elle utilise deux techniques :
La back translation : la machine traduit approximativement la
phrase puis la traduit à nouveau dans sa langue d’origine. Si le
résultat n’est pas identique, le réseau va ajuster son système de
traduction.
Le denoising : l’IA va ajouter ou retirer des mots et la traduire à
nouveau. Le but : l’IA apprend er une structure simplifiée
et non pas un simple « copier coller » de la phrase.
Le progrès est certes incroyable par rapport à ce qui faisait
auparavant. Cependant, les deux systèmes ont récolté chacun un score de
15 pour l’anglais/français, français/anglais là où Google Translate
possède un score de 40 et les traducteurs humains un score de 50. C’est
donc 3 fois moins fiable qu’un expert.
Les gadgets technologiques
Certaines sociétés proposent des gadgets permettant de briser les
barrières linguistiques. Les oreillettes The Pilot, Google Pixel Buds
ou encore Travis Translator.
Google Pixel Buds
Les Google Pixel Buds suscitaient beaucoup d’attentes depuis leur
annonce. Pour un prix de 179€, ces écouteurs sont connectés à votre
smartphone. Vous demandez de l’aide à Google pour traduire une phrase
et celui-ci la traduit. Il le fait à haute voix si vous parlez ou vous
transmet via l’oreillette si vous « recevez » la phrase. Le service
propose une traduction dans 40 langues. Cependant, la traduction reste
approximative car il n’y a que peu d’intonation lors de la lecture des
traductions. De plus, la machine peut mal comprendre les propos selon
la vitesse de prononciation, l’accent ou autres facteurs humains. Le
bruit environnant vient aussi biaiser le résultat.
Travis Translator
Travis Translator se présente comme le premier traducteur vocal
universel au monde. Il a réussi sa campagne de financement Indiegogo
avec plus de 3500 investisseurs pour un total de 630 000 dollars. Il
repose sur un système d’intelligence Artificielle, d’apprentissage
dynamique et d’une technologie de reconnaissance vocale qui se veut
avancée. Son but est de traduire instantanément et précisément les
conversations. La reconnaissance vocale permet à Travis de traduire
votre voix, vous permettant ainsi de vous concentrer sur votre
interlocuteur. Sur le papier, cela semble prometteur, pourtant sa note
est de 2.7 étoiles sur 4 sur sur 153 avis. Bien que certains
semblent satisfaits, beaucoup mettent en avant « l’absurdité des
traductions » et la lenteur d’exécution.
The Pilot
Les oreillettes The Pilot de Waverly Labs ont levées plus de 4
millions de dollars sur indiegogo. Elles sont reliées en bluetooth à un
téléphone. Une oreille est pour soi, l’autre pour l’interlocuteur.
Quand vous parlez, l’autre entend la version traduite et vice versa.
Cela ne marche évidemment que si la personne a aussi une oreillette,
oubliez donc les traductions pour des groupes. De plus, il y a un temps
d’attente entre la phrase prononcée et sa version traduite. Le bruit
ambiant entraine aussi des difficultés de traduction. Leur prix de
vente est de 114€.
Je ne vais pas vous faire ici un listing de toutes les solutions
actuellement proposées. SwiftScribe, MymanuClick ou encore Translate
One2One, ce marché est en pleine expansion et, à terme, va sans aucun
doute révolutionner un certain nombre d’industries et améliorer les
interactions humaines.
Cependant, la plupart de ces technologies laissent un goût amer car
elles ne répondent pas encore aux attentes des utilisateurs. De plus,
leur coût reste élevé. Cependant, il est important de rapeler que
l’Intelligence Artificielle évolue car elle apprend. Il est donc
probable que d’ici quelques années, la machine se rapproche fortement
de l’Homme grâce au Machine Learning. Mais peut-on réellement se passer
d’experts linguistiques pour des traductions littéraires, humoristiques
ou très techniques ? Le niveau de complexité en termes d’us et
coutumes, d’intonation et de spécificités linguistiques reste très
(trop ?) élevé. C’est un des défis majeurs que devront affronter les
concepteurs d’Intelligence Artificielle pour accéder à une traduction
automatique de qualité.
Si l’article vous a plu, n’hésitez pas à liker notre page et
à vous abonner à notre newsletter !
Merci à Rémy Hérault pour l’image à la une de l’article.
Tumeurs et tremblements : les dangers de la traduction automatique
« Plutôt que de m’inquiéter de la perspective d’être un jour remplacé par une
machine, je préfère m’émerveiller devant les capacités de la nouvelle
génération de programmes de traduction. »
[facebook-square.svg] Partager
[twitter.svg] Tweet
par Arthur Goldhammer
|
Il y a quelques années, sur un vol Amsterdam-Boston, deux nonnes
américaines assises à ma droite écoutaient religieusement un jeune
hollandais volubile, dont c'était le premier voyage sur le continent
américain. Le type avait de nombreuses questions en tête, et ne se
privait aucunement de les poser. Il demanda à ces dames, entre autres,
quelle était leur destination. Hélas, à son grand regret, Framingham
(Massachussetts) ne faisait pas partie de la liste des villes qu'il
avait l'intention de visiter. « Si j'avais des tonneaux de temps, je
visiterais des tonneaux d'endroits, » conclut-il alors, morose.
Ce personnage jovial croyait de toute évidence que « tonneaux » était
un adverbe intensif qui pouvait avantageusement se substituer à «
beaucoup », « plein », ou encore « des tonnes ». Il maitrisait plus ou
moins la syntaxe de notre langue, disposait de toute évidence d'un
vocabulaire plutôt étendu. Malheureusement il n'avait pas l'expérience
suffisante pour comprendre quels mots étaient appropriés à tel ou tel
contexte, et quels mots étaient destinés à un usage métaphorique ou
satirique.
Ce souvenir m'est revenu immédiatement lorsque j'ai appris que le
moteur de Google Translate allait abandonner son ancien système,
exploitant une base de données de phrases, au profit d'un système
appuyé par des réseaux de neurones. (Les différences techniques sont
décrites ici.) Les deux méthodes reposent sur l'entrainement d'une
machine sur un « corpus » composé de paires de phrases : la phrase
d'origine et sa traduction. La machine génère ensuite une série de
règles d'inférence, et à partir de la séquence de mots du texte
d'origine, elle déduit la séquence de mots la plus probable dans la
langue cible.
Cette opération consiste en fait à faire correspondre des patterns
linguistiques. Des algorithmes similaires sont utilisés pour
interpréter les sons que vous prononcez lorsque vous demandez à votre
smartphone de calculer un temps de trajet dans Paris, ou lorsqu'une
application photo tag le visage d'un de vos potes. La machine ne
comprend ni les visages, ni les destinations ; elle les réduit à des
vecteurs de nombres, puis effectue les calculs qui s'imposent.
Je suis traducteur professionnel. J'ai traduit 125 livres écrits en
français. On pourrait donc s'attendre à ce que je sois terrifié par
l'annonce de Google selon laquelle son nouveau moteur de traduction
égalerait un traducteur humain (ses traductions sont notées en moyenne
5.0 sur une échelle de 0 à 6, tandis que les traductions des humains
sont notées 5.1 en moyenne). Cependant, je possède également un
doctorat de mathématiques, et j'ai développé un logiciel qui « lit »
les journaux européens écrits dans quatre langues différentes, puis en
classe les articles par thème. Aussi, plutôt que de m'inquiéter de la
perspective d'être un jour remplacé par une machine, je préfère
m'émerveiller devant les capacités de la nouvelle génération de
programmes de traduction. Je suis également plein d'admiration pour la
complexité technique et la virtuosité du travail des ingénieurs de
Google.
Mon admiration ne m'empêche pas d'être préoccupé par les conséquences
de la généralisation de la traduction automatique, cependant. Pensez au
jeune voyageur hollandais qui connaissait des « tonneaux » de français.
Son habileté à converser montre que son « wetware » - son cerveau, ou
son réseau de neurones biologique, si vous préférez - a été
suffisamment bien entraîné pour lui permettre d'intégrer les règles
subtiles (et les exceptions) d'une langue naturelle qui n'est pas sa
langue maternelle. Les langages informatiques, à l'inverse, possèdent
une grammaire non contextuelle. Le jeune Néerlandais ne possédait pas
une expérience sociale anglophone suffisante pour saisir les règles
fines qui façonnent la diction, le ton et la structure du discours d'un
locuteur natif, qui, dans certains contextes, choisit d'ailleurs de
briser ces règles pour provoquer un effet particulier. De par sa
connaissance imparfaite du français, notre homme s'est transformé
malgré lui en comédien.
Le moteur de traduction de Google est « entrainé » sur des corpus
variés : manuels d'utilisation, articles Wikipédia, articles de presse,
etc. Une rapide description du corpus en question constitue l'unique
indication dont dispose le programme sur le contexte d'où provient la
source. A partir de ces maigres informations, il est difficile de
déduire la pertinence ou l'inadéquation d'un mot comme « tonneau » dans
un contexte non spécifique. Quelle que soit le niveau de sophistication
des algorithmes utilisés, ils doivent s'appuyer sur un contexte pour
être en mesure de traduire correctement un discours donné. Or, ce
contexte est très difficile à retranscrire sous la forme de lignes de
code.
Prenez l'expression « petite phrase ». Phrase peut être traduit par
sentence ou phrase en anglais. Lorsque Marcel Proust l'utilise dans un
contexte musical dans son romain À la recherche du temps perdu, en
disant « la petite phrase de Vinteuil », il faudrait traduire par
phrase, car sentence n'aurait aucun sens. Google Translate (l'ancien
système – le nouveau n'est disponible qu'en mandarin pour le moment)
s'en sort très bien avec ce genre de problème. Si vous écrivez « petite
phrase » hors de son contexte, il traduit par short sentence.
Maintenant, si vous tapez « la petite phrase de Vinteuil » (dans le
roman, le personnage est un compositeur), il traduira par Vinteuil's
little phrase, pour correspondre aux traductions publiées du texte de
Proust. La rareté du nom « Vinteuil » fournit aux algorithmes
statistiques un contexte utile à leurs recherches. En revanche, il vous
crachera « little phrase Sarkozy » au lieu de « Sarkozy's zinger » :
dans un contexte politique (indiqué par la mention de l'ancien
président), « la petite phrase » est l'équivalent de « la petite pique
de », c'est-à-dire une remarque ironique adressée à un adversaire
politique. Cependant, le nom de Sarkozy apparait désormais dans une
telle variété de contextes que l'algorithme statistique échoue à
déterminer lequel, ici, est le plus pertinent. Google Translate ne
parvient alors qu'à produire un malheureux solécisme.
Le problème, qui a miné d'ailleurs toutes les tentatives passées de
mettre au point une IA forte, c'est que l'intelligence humaine est
incroyablement complexe. Être intelligent, ce n'est pas seulement
parvenir à effectuer des inférences logiques à partir de règles ou de
régularités statistiques. Être intelligent, c'est avant tout comprendre
quelles règles sont applicables dans tel ou tel contexte. C'est
posséder une certaine sensibilité aux situations, qui ne peut être
totalement objectivée. Les développeurs sont certes des gens
intelligents, mais ils ne sont pas tout puissants ; il leur est
impossible d'anticiper la variété des contextes à partir desquels un
sens est susceptible d'émerger. Dans ces conditions, même les
algorithmes les plus efficaces échoueront toujours à traduire certaines
phrases, puisque, comme le faisait remarquer Henry James, le traducteur
idéal est celui qui « connaît tout du monde. »
Cela ne signifie pas pour autant que la traduction automatique est
inutile. Après, la plus grande partie du travail du traducteur est
assez inintéressante, et s'effectue selon une certaine routine. Les
machines peuvent faire du bon boulot (pour traduire des textes
techniques très stéréotypés, par exemple). Il ne faut cependant pas
trop en attendre de leurs capacités, surtout sur des textes
littéraires, critiques, poétiques, politiques. Le champ de
l'intelligence artificielle a beaucoup souffert des attentes démesurées
du public, des médias, et même des scientifiques et ingénieurs. À titre
personnel, je ne risque plus de m'inquiéter pour l'avenir de mon job :
je ne traduis plus, j'écris du code.
Arthur Goldhammer est auteur, traducteur, universitaire, blogueur, et
spécialisé en politique française. Il a traduit plus de 120 ouvrages du
français, dont De la démocratie en Amérique de Tocqueville et Le
Capital au XXIe siècle de Thomas Piketty. Il est affilié au Centre
d'études européennes de Harvard, et ses écrits sont parus dans The
American Prospect, entre autres. Il vit à Cambridge, dans le
Massachusetts.
Une première version de cet article a été publiée sur Aeon, puis
republiée sous Creative Commons.
Amazon planche sur un service de traduction automatique
Nelly Lesage Nelly Lesage - 27 juin 2017 - Tech
Accueil
Tech
Amazon planche sur un service de traduction automatique
Amazon va-t-il concurrencer Google et Microsoft sur le marché de la
traduction automatique ? L'entreprise de e-commerce travaille en
interne sur un outil de traduction, développé par la startup Safaba,
rachetée en 2015 par Amazon.
Amazon est engagé sur de nombreux fronts. Impliquée dans la course aux
voitures autonomes, prête à se lancer dans la fabrication de vêtements
sur mesure, l’entreprise de Seattle poursuit aussi son projet
d’importer en Europe ses magasins sans caisse et sans queue.
La firme semble à présent vouloir proposer ses services en matière de
traduction, avec un outil capable de traduire des sites et des
applications dans plusieurs langues. Celui-ci serait intégré à sa
division Amazon Web Services.
Concurrencer Google et Microsoft ?
S’il voit effectivement le jour, un tel service devra s’accommoder de
la concurrence de Microsoft et Google, qui proposent déjà aux
entreprises leurs propres interfaces de programmation dédiées à la
traduction. Google Traduction, notamment, a fait fin 2016 un important
bond en avant en recourant à l’intelligence artificielle.
En interne, un groupe de recherche au sein Amazon travaille déjà sur
des outils de traduction automatique, dans les locaux de l’entreprise à
Pittsburgh. Le programme a été confié à Alon Levie, le cofondateur de
la startup Safaba, spécialisée dans les logiciels de traduction — et
rachetée en septembre 2015 par Amazon.
En interne, la startup Safaba mène des recherches sur la traduction
automatique
Pour l’instant, Amazon se refuse à tout commentaire. Le géant du
commerce électronique propose à l’heure actuelle plus de 70 services
différents sur AWS, sa plateforme dédiée aux services de cloud
computing. Cette dernière généré un chiffre d’affaires de plus de 3,6
milliards de dollars au dernier trimestre.
Si nous utilisons des cookies et retenons des données anonymisées,
c’est pour nous aider à mieux faire notre travail de mesure d’audience,
aider nos partenaires commerciaux à nous rémunérer et nos partenaires
publicitaires er des annonces qui vous correspondent. Bref,
rien qui ne sort de notre activité de média.
Vous pouvez toutefois ajuster les paramètres vous concernant : vous ne
verrez pas moins de pub sur Numerama, mais elles seront moins ciblées.
En cliquant sur « J'accepte », vous acceptez l'utilisation par Numerama
de cookies publicitaires et de mesure d'audience fine.
/file>
#Flux
Lancée pendant la Guerre froide conjointement aux Etats-Unis et en
Union soviétique, la traduction automatique a connu son heure de gloire
avant d’être supplantée par l’essor des mémoires de traduction.
Délaissée par les traducteurs, la traduction automatique sert-elle
encore à quelque chose ? Est-ce qu’elle présente encore un intérêt
compte tenu des « erreurs » qu'elle génère ? Après avoir recensé les
problèmes posés par la traduction automatique, cette contribution
tentera de présenter les avantages et inconvénients de la post-édition
d’un texte traduit automatiquement par rapport à la traduction par
écrasement.
The glory days of machine translation, which was developed during the
Cold War period in the US and in the Soviet Union, came to an end with
the rise of translation memories. Currently machine translation is
ignored by translators, and the question may be asked whether it can
still be of use. Is it still relevant in light of the "errors" it
produces? After identifying the problems of machine translation, this
paper will present the advantages and disadvantages of post-editing an
automatically translated text, and will compare these findings to a
direct translation using translation memories.
________________________________________________________________________
PLAN / SECTIONS INTERNES
__________________________________________________________________
Introduction
Les fonctions de la traduction automatique (TA)
Les treize péchés capitaux de la TA
Premier problème, polysémie et homonymie
Deuxième problème, l’ambiguïté syntaxique
Troisième problème de la TA, l’ambiguïté référentielle
Quatrième problème, les expressions floues (fuzzy hedges)
Cinquième problème, idiotismes et métaphores
Sixième problème, la néologie
Septième problème, les noms propres
Huitième problème, les mots d’origine étrangère et les emprunts
Neuvième problème, les séparateurs
Dixième problème, les sigles et les acronymes
Onzième problème, les synonymes
Douzième problème, la transposition
Treizième problème, l'orthographe
Traduction par écrasement et post-édition
Avantages et inconvénients de la traduction par écrasement
Avantages et inconvénients de la technique de post-édition
Conclusion
________________________________________________________________________
TEXTE INTÉGRAL
__________________________________________________________________
Introduction
Lancée pendant la Guerre froide conjointement aux Etats-Unis et en
Union soviétique, la traduction a connu son heure de gloire jusqu’à la
publication du rapport ALPAC en 1966 par la National Science
Foundation, qui concluait à l'impossibilité d'une traduction
automatique de qualité. Elle a connu par la suite un renouveau en
Europe jusqu’au constat d’échec du projet Eurotra. Désormais, la
traduction assistée par ordinateur et l’essor des mémoires de
traduction ainsi que des très grandes mémoires de traduction en ligne,
alimentées par les traducteurs clients, a supplanté la traduction
automatique même si cette dernière connaît cependant un regain de
popularité sur la toile et en Traitement Automatique des Langues grâce
au développement du modèle statistique et à la création de l’outil
Google translate. Est-ce que celle-ci sert encore à quelque chose ?
Est-ce qu’elle présente encore un intérêt pour le traducteur compte
tenu des « erreurs » qu'elle génère ? Nous allons tenter de répondre à
ces questions en opposant les méthodes de la traduction par écrasement
telle qu'elle est pratiquée par la majorité des traducteurs et la
post-édition d'une ébauche traduite automatiquement.
Les fonctions de la traduction automatique (TA)
Selon John Hutchins (Hutchins, 2004 : 13-18), quatre fonctions
particulières sont assignées à la traduction automatique :
La première fonction, ou « fonction de dissémination », consiste à
produire un brouillon traduit du texte qui devra par la suite être
post-édité manuellement pour aboutir à une traduction correcte.
La deuxième fonction, ou « fonction d’assimilation », consiste à
extraire des informations à partir du texte traduit automatiquement,
sans considération pour la qualité du texte cible.
La troisième fonction, ou « fonction d’échange », consiste à utiliser
la traduction automatique comme « interprète » de textes électroniques
devant être traduits simultanément, comme par exemple les « chats »,
les pages web ou les courriers électroniques rédigés dans une langue
étrangère.
La quatrième fonction assignée à la traduction automatique est celle
d’outil d’accès à l’information en langue étrangère par l’interrogation
d’un système de base de données. Notons que l’accès à une base de
données par l’intermédiaire d’un logiciel de traduction automatique
permet de recueillir des informations non-textuelles, comme des images,
mais ce n’est pas ici notre propos.
En dehors de la fonction de dissémination, et plus rarement de la
fonction d’assimilation, le recours au traducteur humain n’est pas
prévu pour le genre de tâches assignées à la traduction automatique.
Il faut donc se poser la question de savoir si une post-édition d’un
document traduit automatiquement peut présenter de l’intérêt par
rapport à une traduction par écrasement comme elle est pratiquée par la
plupart des traducteurs.
Pour illustrer notre propos, tous les exemples authentiques ou
construits recensés dans cette contribution ont été soumis à une
traduction automatique à l'aide de la dernière version (payante) du
logiciel de traduction automatique Systran V6 Premium Translator
fonctionnant sur le modèle du transfert ainsi qu’avec l’outil de
traduction (gratuit) de Google, Google translate1, fonctionnant sur le
modèle statistique développé par Franz Josef Och. (Och & Ney, 2004).
Précisons néanmoins que certains services de traductions gratuits sur
la toile comme Yahoo ! ou Babelfish utilisent également Systran comme
moteur de traduction. Pour simplifier, alors que les systèmes par
transfert analysent le texte en langue source, en transfèrent les
éléments lexico-syntaxiques dans la langue cible pour générer un texte
en langue cible sur la base d’un modèle de langue complexe, les
systèmes statistiques puisent à l’aide de modèles mathématiques
compliqués dans d’immenses corpus parallèles des portions de textes
déjà traduits pour les réassembler dans des phrases en langue cible.
D’un point de vue purement linguistique, le modèle de langue est
beaucoup plus élégant, il est toutefois nettement plus difficile à
mettre en œuvre du fait que la langue a tellement d’irrégularités et
d’idiosyncrasies, que les formaliser toutes semble illusoire. Le modèle
statistique s’affranchit sinon totalement, du moins en grande partie
d’une analyse linguistique. Comme pour les mémoires de traduction, il
s’agit de piocher des séquences de textes déjà traduites, l’art
résidant dans l’assemblage et la construction d’un texte entier, ce que
ne fait pas la mémoire de traduction. Le modèle statistique s’est donc
presque affranchi du linguiste et demeure la chasse gardée des
informaticiens et des mathématiciens. Bien entendu, comme pour les
mémoires de traduction, pour que le modèle fonctionne bien, il faut que
les corpus soient à la fois nombreux et de bonne qualité.
Les treize péchés capitaux de la TA
Dans un article déjà très ancien, Anne-Marie Loffler-Laurian
(Loffler-Laurian, 1983 : 65-78) relève douze catégories d’erreurs
générées par le système Systran. Plus d’un quart de siècle plus tard,
on relève toujours les mêmes erreurs, même si les systèmes de
traduction automatique, notamment avec l’arrivée des systèmes
statistiques (Brown et al., 1993) et des modèles factorisés (Koehn,
2007) ont fait de notable progrès quant aux paires de langues désormais
accessibles. Pour notre part, nous avons relevé treize types d’erreurs
générés par les systèmes de traduction automatique.
Polysémie et homonymie
Ambiguïté syntaxique
Ambiguïté référentielle
Termes flous ou Fuzzy hedges
Idiotismes et métaphores
Néologie
Noms propres
Mots d'origine étrangère et emprunts
Sigles et acronymes
Séparateurs
Synonymes
Transposition
Orthographe
Passons en revue ces différents problèmes. Nous illustrerons notre
propos d’exemples traduits en français, anglais et allemand.
Premier problème, polysémie et homonymie
La polysémie constitue le problème le plus souvent signalé en matière
de traduction automatique. Les mots ne fonctionnent pas tant comme des
unités discrètes, c'est-à-dire bien délimitées et séparées les unes des
autres, mais comme des occurrences sujettes à un certain nombre de
variations sémantiques au sein d'un champ.
La polysémie, pluralité de significations au sein d’un continuum
sémantique pour un même mot, pose problème également au traducteur
humain pour qui il est parfois difficile de trouver la nuance exacte.
Tantôt la polysémie se retrouve d’une langue à l’autre (exemple 1),
tantôt pas (exemple 2).
Exemple 1 : la traduction de l’adjectif polysémique « libre »
la voie est libre (non encombrée)
l'entrée est libre (gratuite)
le prisonnier est libre (n'est plus en captivité)
the way is free (not encumbered)
the entry is free (free)
the prisoner is free (is not any more in captivity) [Systran]
der Weg ist frei (nicht überfüllt)
der Eingang ist frei (kostenlos)
das Gefangene ist frei (ist nicht mehr in Gefangenschaft) [Systran]
Exemple 2 : la traduction de l’adjectif polysémique « léger »
Ce sac à dos est léger. (a peu de poids)
Le directeur est léger dans son travail. (est négligent)
Marie est une femme légère. (aimant le plaisir sexuel)
This backpack is light. [Google]
The director is light in his work. [Google]
Mary is a woman lightly. [Google]
Dieser Rucksack ist leicht. [Google]
Der Direktor ist leicht in seiner Arbeit. [Google]
Marie ist eine Frau leicht. [Google]
L’homonymie qui concerne des mots de même graphie et de sens
radicalement différents pose également des problèmes :
Exemple 3 : la traduction de l’homonyme « avocat » (homme de loi +
fruit)
Julia aime son avocat. (le fruit est inconcevable)
Julia aime les avocats. (juristes et fruits sont concevables)
Julia loves its lawyer.
Julia loves lawyers.
« lawyer » est la seule variante connue de Systran et de Google.
Julia mag ihren Rechtsanwalt. [Systran]
Julia mag die Rechtsanwälte. [Systran]
Julia mag sein Anwalt. [Google]
Julia liebt die Anwälte. [Google]
Le fruit est ici aussi passé sous silence.
L'un des problèmes de la traduction automatique est qu'en règle
générale, très peu de variantes lexicales sont présentes. C'est un
problème de dictionnaire électronique qui peut être résolu et certains
programmes, comme Reverso Pro, proposent des variantes de traduction
dans la mesure où une unité comporte des homonymes.
Deuxième problème, l’ambiguïté syntaxique
L'ambiguïté syntaxique est le second problème couramment évoqué, il
apparaît du fait que certaines structures syntaxiques ne sont pas
claires sans connaissance du monde :
Exemple 4 : to fly gliders and to clean fluids
Cleaning fluids can be dangerous (cleaning fluids mais pas to clean
fluids)
Flying gliders can be dangerous (double interpretation : flying
gliders et to fly gliders)
To clean fluids can be dangerous
To fly gliders can be dangerous
En anglais, les verbes « to fly » et « to clean » sont transitifs. Il
existe cependant une restriction quant aux arguments ayant la fonction
d’objet direct. Ainsi « to fly » demande comme objet un « objet
volant ». Bien que moins sélectif quant à la nature de l’objet, « to
clean » est incompatible avec « fluids ». L'ambiguïté syntaxique fait
appel au contexte argumental et ne peut être résolue que par la prise
en compte du niveau lexico-syntaxique (Gross, 1995 :16-19).
Troisième problème de la TA, l’ambiguïté référentielle
La question de la référence (rapport entre le texte et la part non
linguistique de la pratique où il est produit et interprété) est une
question d'interprétation qui suppose par définition une interprétation
cognitive.
Les pronoms réfèrent ainsi à certains mots ou antécédents qui ne sont
pas toujours clairs sans connaissance du monde.
La traduction automatique est effectuée phrase par phrase et les
référents peuvent se situer hors d’une phrase particulière.
Exemple 5 : le pronom « le » et son référent
Paul a heurté le vase du pied et l'a cassé. (le vase ou le pied?)
Paul ran up against the vase of the foot and broke it. [Systran]
Paul struck the foot of the vase and broke. [Google]
Paul ist sich den Schlamm des Fußes gestoßen und es hat gebrochen.
[Systran]
Paul schlug die Vorlage des Fußes und brach. [Google]
L'ambiguïté référentielle fait aussi appel à la connaissance du monde
plus que du contexte et dans l'état actuel de la TA, ne peut être
résolue de façon satisfaisante.
Quatrième problème, les expressions floues (fuzzy hedges)
Ce sont des mots ou groupes de mots au caractère idiomatique marqué,
donc très dépendants de l'organisation sémantique de la langue source,
qui sont difficiles à traduire et dont le rôle est d'exprimer une
approximation – ”words whose job it is to make things more or less
fuzzy” selon Lakoff (Lakoff, 1972 : 183). À titre d'exemple on relèvera
« en fait », « d’ailleurs », « en un sens » en français, « somehow »,
« a sort of », « actually » en anglais, « irgendwie » en allemand, etc.
Exemple 6 : traduction de l’expression floue « en un sens » / « in a
certain way » / « in einem gewissen Sinne »
Parler n'est-il pas toujours en un sens donner sa parole ?
To speak isn't always in a direction to give its word? [Systran]
Talking is not always in a sense to give his speech? [Google]
Ist sprechen nicht immer in Sinn, sein Wort zu geben? [Systran]
Sprechen, ist es nicht immer in eine Richtung geben, sein Wort?
[Google]
La question de la traduction des termes flous constitue un problème de
lexique qui se situe souvent au niveau polylexical, il n’est pas
possible de le résoudre sans prendre en compte le contexte adjacent.
Ces termes flous posent problème aux systèmes par transfert et
statistiques du fait d’un contexte d’apparition très variable.
Cinquième problème, idiotismes et métaphores
Les idiotismes ou expressions idiomatiques ou encore phrasèmes chez
Mel’čuk (Mel’čuk, 1998), ainsi que les métaphores revêtent une
coloration culturelle marquée qu’il est difficile de traduire mot à
mot.
Exemple 7 : traduction de l’expression idiomatique « à couteaux tirés »
/ « at daggers drawn » / « in äußerster Feindschaft mit jmdm. Leben »
Nicolas Sarkozy et Jean-François Copé sont désormais à couteaux
tirés. (20minutes.fr)
Nicolas Sarkozy and Jean-François Cope are from now on with drawn
knives. [Systran]
Nicolas Sarkozy and Jean-François Copé are now at loggerheads.
[Google]
Nicolas Sarkozy und Jean-François Copé sind von nun an an gezogenen
Messern. [Systran]
Nicolas Sarkozy und Jean-François Copé sind nun Messer aus. [Google]
La traduction anglaise de Google « to be at loggerheads (être en
désaccord) », bien que moins précise, est acceptable.
Du fait qu’ils fonctionnent à partir de bases de données de textes
traduits humainement, les systèmes statistiques de traduction
automatique peuvent se révéler plus performants que les systèmes par
transfert pour ce genre de problèmes.
Sixième problème, la néologie
La langue générale et plus encore la terminologie évoluent et les
logiciels de traduction automatique n’incluent pas toujours les
dernières évolutions lexicales.
Exemple 8 : traduction des néologismes « internautes » et « Web star »
Ancienne comédienne, Luna Sentz met son talent au service des
internautes en animant des émissions interactives en direct sur le
site de Canal+. Une Web star est née. (L'Ordinateur Individuel)
Former actress, Luna Sentz puts her talent at the service of the Net
surfers by animating interactive emissions on line on the site of
Canal+. A Web star was born. [Systran]
Former actress, Luna Sentz puts his talent to the Internet in
facilitating interactive programs live on the site of Canal +. Web
is a star born. [Google]
Ehemalige Komödiantin, Luna Sentz stellt ihr Talent im Dienst der
Internet-Benutzer, indem sie interaktive Direktemissionen auf dem
Standort von Canal+ belebt. Ein Web Star ist geboren geworden.
[Systran]
Ehemalige Schauspielerin Luna Sentz stellt ihr Talent in den Dienst
der Nutzer in Form von interaktiven Sendungen direkt auf der Website
von Canal +. Eine Web-Star ist geboren. [Google]
La néologie suppose une actualisation régulière des dictionnaires
électroniques, avec des équipes de lexicographes qui travaillent en
arrière-plan pour les systèmes par transfert. Grâce à ses immenses
corpus de textes traduits relatifs aux nouvelles technologies, Google
s’en sort ici particulièrement bien.
Septième problème, les noms propres
Le problème des noms propres est sans doute l’un des plus difficiles à
résoudre en traduction automatique : d’une part, leur nombre est
tellement élevé qu’un recensement exhaustif paraît pratiquement
impossible. En effet, si l’on considère l’ensemble des noms de
personnes, des noms de lieux, des noms de marques, d’associations,
d’organismes à l’échelle de la planète, on dépasse de loin pour une
langue les dictionnaires de langue générale. A la difficulté du
recensement des noms propres vient s’ajouter celle de leur orthographe,
souvent fluctuante lorsqu’il s’agit de translittération ou de
transcription d’une langue à l’alphabet non latin.
Exemple 9 : un nom propre connu, Vladimir Poutine
Vladimir Poutine a déclaré vouloir équiper sa chienne, un labrador
prénommé Koni, du système russe de navigation par satellite Glonass
pour pouvoir la retrouver si elle s'enfuit! On comprend dès lors ce
que le Kremlin est capable de mettre en oeuvre pour "pister" ses
ennemis politiques! (lepost.fr)
Vladimir Poutine (Putin) stated to want to equip her bitch,
fore-mentioned Labrador Koni, Russian system of Glonass navigation
by satellite to be able to find it if she flees! One consequently
includes/understands what the Kremlin is able to implement “to
track” its political enemies! [Systran]
Vladimir Putin has said it wants to equip his dog, a labrador named
Koni, the system of Russian Glonass satellite navigation to find if
it escapes! It is therefore understandable that the Kremlin is able
to implement to "track" their political enemies! [Google]
Vladimir Poutine (Putin) hat erklärt, seine Hündin, ein oben
erwähntes Labrador Koni mit dem russischen Navigationssystem via
Glonass-Satelitte ausstatten zu wollen, um es wiederfinden zu
können, wenn sie sich entflöhe! Man begreift folglich, was der
Kremlin (Kreml) fähig ist, zu verwirklichen, um seine politischen
Feinde „zu verfolgen“! [Systran]
Wladimir Putin will an seinem Hund, einen Labrador namens Koni, des
russischen Satellitennavigationssystem GLONASS, um die
wiederzufinden, wenn sie fliehen! Es ist daher einleuchtend, dass
der Kreml in der Lage ist, um "Spuren" seiner politischen Gegner!
[Google]
Avantage ici à Google pour l’anglais, une chienne n’étant pas toujours
« a bitch ». Plus sérieusement, les corpus parallèles traduits sont en
mesure de donner des équivalences des noms propres et des prénoms de
façon plus fiable dans les systèmes statistiques que par transfert
(transcription de « Vladimir » par « Wladimir » en allemand).
Exemple 10 : un illustre inconnu, le Dr Michel Maure
Un mandat d’arrêt a été délivré à l'encontre du Dr Michel Maure, 59
ans, auteur de multiples opérations de chirurgie esthétique ratées.
(europe1.fr)
A warrant for arrest was delivered against Dr. Michel Moor, 59
years, author of multiple missed operations of cosmetic surgery.
[Systran]
An arrest warrant was issued against Dr Michel Maure, 59, author of
multiple cosmetic surgery operations failed. [Google]
Ein Erlaßmandat ist gegen maurischen Dr. Michel 59 Jahre Autor
mehrfacher verpaßter Operationen ästhetischer Chirurgie ausgestellt
worden. [Systran]
Ein Haftbefehl ausgestellt wurde, gegen die von Dr. Michael Mohr, 59
Jahre, Autor von mehreren Operationen der plastischen Chirurgie
Fehldrucke. [Google]
La présence de noms propres vient souvent complètement bouleverser la
traduction, le système ne parvenant plus à analyser la phrase de
manière correcte, traduisant le nom propre en un adjectif (maurisch =
mauresque !) dans la traduction en allemand de l'exemple précédent par
Systran. Net avantage à Google.
Huitième problème, les mots d’origine étrangère et les emprunts
Les mots d'origine étrangère sont extrêmement fréquents dans la langue
allemande et proviennent généralement de l'anglais ou du français. Ces
mots ne sont généralement pas présents dans les dictionnaires
électroniques du système, d’où un net avantage aux systèmes
statistiques.
Exemple 11 : traduction des emprunts « Debütantin » et « Favoritin »
Simone Buess: Von der Debütantin zur Favoritin.
Des Simone payer : Du Debütantin au Favoritin. [Systran]
Simone Buess: de la débutante à la favorite. [Google]
De plus en plus, on constate parallèlement à la mondialisation, une
tendance dans la langue journalistique à la généralisation des emprunts
de mots d’origine étrangère ou à la traduction mot à mot de certaines
expressions qui prennent aussi racine dans la langue cible.
L'expression anglaise « nothing in the pipeline », est devenue en
français « rien dans les tuyaux » et en allemand « nichts in der
Pipeline ». Bien entendu, la langue d’emprunt est en général l’anglais
pour ces expressions, la langue du « business » international.
Exemple 12 : traduction de l’expression idiomatique empruntée de
l’anglais « rien dans les tuyaux » et « nothing in the pipeline »
Most software companies are one product companies, and have nothing
in the pipeline apart from upgrades. (techuser.net)
La plupart des fournisseurs de logiciel sont des compagnies d'un
produit, et n'ont rien dans la canalisation indépendamment des mises
à niveau. [Systran]
La plupart des entreprises de logiciels sont l'un des produits des
entreprises, et n'ont rien en dehors de la canalisation de mise à
niveau. [Google]
L’expression idiomatique est traduite dans la langue cible comme s’il
s’agissait d’une proposition libre.
Christine Lagarde, fait valoir de son côté qu' « il n'y a, à ce
jour, strictement rien dans les tuyaux ». (tradingsat.com)
Christine Lagarde, puts forward on her side that “there is not, to
date, strictly nothing in the pipes”. [Systran]
Christine Lagarde, argues in turn that "there has, to date, nothing
in the pipes." [Google]
Christine Lagarde macht ihrerseits geltend, dass „es bis zum
heutigen Tag strikt nichts in den Rohren gibt“. [Systran]
Christine Lagarde, macht geltend, auf seiner Seite: "Es gibt bis
heute nicht unbedingt in den Schläuchen. [Google]
La traduction inverse montre aussi que l’expression idiomatique n’est
pas reconnue.
Doch PR-Chef Franz-J. Weihrauch winkt ab: „Da ist aktuell nichts in
der Pipeline." (koelner-brauerei-verband.de)
Mais PR-Chef Franz-J. La fumée consacrer décline : „N'est là actuel
rien dans la canalisation.“ [Systran]
Mais PR-chef Franz-J. À partir de l'encens du doigt: "Il est
actuellement rien dans le pipeline." [Google]
Certains emprunts de l’anglais jouissent d’une grande popularité,
surtout dans la langue des affaires.
Exemple 13 : traduction de l’emprunt « business model »
Les pirates sont innovants, ils mettent en évidence les problèmes du
marché et montrent la voie à de nouveaux business models.
(ecrans.fr)
The pirates are innovating, they highlight the problems of the
market and show the way with new businesses models. [Systran]
The pirates are innovative, they highlight the problems of the
market and show the way to new business models. [Google]
Die Piraten sind innovativ, sie heben die Probleme des Marktes
hervor und zeigen den Weg an einem neuen Geschäft models. [Systran]
Die Piraten sind innovativ, sie deutlich machen, die Probleme des
Marktes und weisen den Weg zu neuen Geschäftsmodellen. [Google]
La traduction en allemand met en évidence que le passage d’un emprunt
de l’anglais d’une langue source vers une langue cible toutes deux
différentes de la langue d’emprunt ne s’effectue pas sans heurts. Là
encore, il s'agit d'un problème de qualité des dictionnaires
électroniques qui peut être résolu dans un système par transfert par
création d’un dictionnaire des emprunts. Le système statistique se
montre un peu plus performant du fait qu’il se fonde sur des corpus de
textes traduits humainement.
Neuvième problème, les séparateurs
Les signes de ponctuation ainsi que certaines abréviations posent
problème aux systèmes de traduction automatique. Le fait que le point
n’ait pas toujours une fonction de séparateur de phrases constitue un
phénomène bien connu en matière de segmentation en français. Le point
peut être rencontré en allemand ou en anglais après une abréviation
comme Dr. En allemand, le point sert aussi à identifier les nombres
ordinaux que l’on rencontre aussi dans les dates là où le français
emploie des cardinaux.
Exemple 14 : séparateur et adjectif numéral ordinal
Montag, den 18. August 2008
Lundi le 18 août 2008 [Systran]
Lundi, le 18 Août 2008 [Google]
Darf man ab dem 16. Lebensjahr ein Girokonto eröffnen? (Yahoo
Deutschland)
On peut 16 à partir de cela. Ouvrir une année un compte de virement
? [Systran]
Peut-on, à partir du 16 Ans, d'ouvrir un compte courant? [Google]
Le point dans ce dernier exemple sert non de séparateur, mais indique
qu’il s’agit d’un nombre ordinal qui devrait être traduit en français
par « à partir de la 16^e année » pour « ab dem 16. Lebensjahr ».
Ce problème des séparateurs peut tout à fait être résolu dans la
plupart des cas, ce qui implique des modules supplémentaires dans le
moteur de traduction.
Les sigles ne prennent en principe plus de points entre les différentes
lettres qui les composent, ce qui constitue une erreur potentielle de
moins pour la question des séparateurs.
Dixième problème, les sigles et les acronymes
Les sigles (épelés), séparés ou non par des points, ainsi que les
acronymes (prononcés comme une unité phonique et donc sans points
séparant les différentes lettres) sont couramment employés dans les
textes journalistiques. Certains se traduisent, d’autres pas. Certaines
langues, comme l’allemand, utilisent aussi les acronymes anglais.
Signalons toutefois que les acronymes s'écrivent le plus souvent en
capitales et sans points abréviatifs : UNESCO, ONU, OTAN, NASA. Parfois
aussi, on les écrit aussi comme des noms propres, avec une majuscule
initiale : Onu, Insee. Les sigles perdent plus difficilement leurs
points étant donné qu'il se prononcent lettre après lettre : S.N.C.F.
Exemple 15 : traduction du sigle d’une organisation internationale
connue
L'Organisation mondiale du commerce (OMC) est la seule organisation
internationale qui s'occupe des règles régissant le commerce entre
les pays. (wto.org)
The World Trade Organization (WTO) is the only international
organization who deals with the rules governing the trade between
the countries. [Systran]
The World Trade Organization (WTO) is the only international
organization dealing with the rules governing trade between
countries. [Google]
Das Welthandelsorganisation (WHO) ist die einzige internationale
Organisation, die sich mit den Regeln befasst, die den Handel
zwischen den Ländern leiten. [Systran]
Die Welthandelsorganisation (WTO) ist die einzige internationale
Organisation, die sich mit den Regeln für den Handel zwischen den
Ländern. [Google]
Système par transfert et système statistique viennent à bout de ce
genre de problèmes. Un système comme Google a naturellement à sa
disposition les pages traduites desdites organisations, d’où la qualité
de la traduction automatique réalisée sur la base de corpus parallèles.
Exemple 16 : traduction d’une abréviation connue
L'entreprise a repris la dénomination Total SA le 6 mai 2003.
(Wikipédia)
The company took again the denomination Total SA on May 6^th, 2003.
[Systran]
The company has taken the name Total SA on 6 May 2003. [Google]
Das Unternehmen hat die Bezeichnung Gesamtzahl AG am 6. Mai 2003
wieder aufgenommen. [Systran]
Das Unternehmen hat die Bezeichnung Total SA am 6. Mai 2003.
[Google]
Une SA (société anonyme) de droit français n’est évidemment pas une AG
(Aktiengesellschaft = société par actions) de droit allemand. Le
système par transfert pèche ici par une table de correspondances
inexactes et un dictionnaire des noms propres d’entreprises
insuffisant.
Onzième problème, les synonymes
La question de la synonymie est l’une des plus cruciales en traduction
car elle traduit la richesse lexicale d’une langue et la compétence
d’un traducteur. De nombreux mots ne se différencient les uns des
autres que par des différences, parfois infimes, mais nécessaires pour
reproduire telle ou telle nuance de style ou de sens dans tel ou tel
contexte. Un logiciel de traduction ne dispose généralement que d’un
nombre limité de variantes pour traduire telle ou telle unité. La
traduction peut ainsi apparaître compréhensible, mais peu élégante,
voire maladroite.
Exemple 16 : traduction de « banner » par « bannière » au lieu de «
banderole »
Two British Free Tibet campaigners are in custody in China after
unfurling a Tibetan flag and banner outside the Olympic stadium.
(freetibet.net)
Deux militants libres britanniques du Thibet sont dans la garde en
Chine après unfurling un drapeau et une bannière tibétains en dehors
du stade olympique. [Systran]
Deux British Free Tibet militants sont en garde à vue après le
déploiement en Chine, le drapeau tibétain et la bannière à
l'extérieur du stade olympique. [Google]
Quasi-synonymes, « bannière » = « étendard d'une confrérie, d'une
société » ne s’en distingue pas moins de « banderole » = « grande bande
de tissu qui porte une inscription (en signe de protestation) ».
Douzième problème, la transposition
Au sens classique, la transposition en traduction consiste à traduire
une unité lexicale d’une classe (nom, verbe, adjectif, adverbe) par une
unité lexicale d’une autre classe. La transposition est assez fréquente
lorsqu’on traduit des langues romanes vers les langues germaniques, les
premières ayant souvent recours à des nominalisations ou les secondes
préféreront des expressions verbales.
Exemple 17 : transposition de « house for sale » en « maison à
vendre »
Detroit has a bunch of run down houses for sale in the $30000 range.
(www.productivity501.com/help-me-understand-the-subprime-mess/419/)
Detroit a un groupe de maisons de course vers le bas à vendre dans
la gamme $30000. [Systran]
Detroit a un tas de courir les maisons en vente dans la gamme $ 30,000.
[Google]
L'expression « house for sale » confine à l'idiotisme et les deux
systèmes ont procédé à la dislocation de l’expression qui devient
incompréhensible. Mais le problème consistait à ne pas traduire « for
sale » par une suite « préposition + nom » mais « préposition +
verbe ». C’est une gageure pratiquement impossible à résoudre pour un
système par transfert et là encore, même s’il ne brille pas, le système
statistique se révèle meilleur. Paradoxalement, les systèmes s’en
sortent mieux à la transposition de « maisons à vendre » du français
vers l’anglais.
Exemple 18 : transposition de « maison à vendre » en « house for
sale »
Dans tout le pays on organise des foreclosure tours, visites
organisées de maisons à vendre.
In all the country one organizes foreclosure turns, visits organized
of houses for sale. [Systran]
Across the country on organizes foreclosure tours, tours of homes
for sale. [Google]
Treizième problème, l'orthographe
L’orthographe, lorsqu’elle est défectueuse, est un ennemi de la
traduction automatique, c’est une remarque triviale. Les systèmes de
traduction travaillant sur du texte analysent tout mot mal orthographié
comme mot inconnu et tout mot inconnu ne peut avoir de traduction et
est donc laissé tel quel. Un mot inconnu ne peut être analysé,
c’est-à-dire rattaché à une classe de mots comme les noms, les verbes,
etc. De ce fait, un mot inconnu provoque systématiquement des erreurs
d’analyse dans un système par transfert. L’étape qui doit précéder
toute traduction automatique consiste donc en une pré-édition dont le
but minimal sera de corriger les fautes d’orthographe.
Exemple 19 : traduction d’une phrase mal orthographiée
Alors qu'un traductteur humain est cpable de traduire une phrase
mâle orthographiée, il en va tout ôtrement d'un logiciel.
Whereas a human traducttor is cpable to translate a spelled male
sentence, it goes from there all ôtrement a software. [Systran]
While a traductteur human cpable to translate a sentence spelled
male, that's a ôtrement of software. [Google]
Während ein menschliches traductteur cpable ist, einen
orthographisch richtig geschriebenen männlichen Satz zu übersetzen,
geht er davon jedes ôtrement einer Software. [Systran]
Während ein traductteur Menschen cpable übersetzen Mann einen Satz
geschrieben, das ganze ôtrement einer Software. [Google]
No comment...
Si certains problèmes relatifs à la TA (ambiguïté, transposition) sont
imputables à la question de la « connaissance du monde », la plupart
d'entre eux proviennent d'un codage insuffisant des dictionnaires ne
prenant pas encore en compte toutes les avancées de la linguistique
dans les systèmes par transfert. L’avenir semble donc appartenir aux
systèmes statistiques disposant de corpus parallèles les plus larges
possibles. Quoiqu’il en soit, la traduction automatique connaît, avec
de tels systèmes dérivés des mémoires de traduction, un renouveau dont
il est impossible de ne pas tenir compte. Ils remettent aussi au goût
du jour la technique de la post-édition, c’est-à-dire la correction
d’une ébauche traduite automatiquement.
Traduction par écrasement et post-édition
Pour pouvoir travailler de façon productive avec un logiciel de
traduction automatique, il est nécessaire de connaître ses « erreurs ».
La deuxième partie de cet exposé a donc pu paraître comme une critique
en règle et quelque peu convenue de la TA. Aussi entreprendrons nous,
dans cette troisième partie, de rétablir un peu l'équilibre en faveur
de celle-ci en opposant post-édition d'un document traduit
automatiquement et traduction par écrasement.
Avantages et inconvénients de la traduction par écrasement
La traduction par écrasement d'un fichier source est la méthode
employée par une majorité de traducteurs dans leur travail et elle est
couramment enseignée comme "la" méthode dans les écoles de traduction.
Cette méthode comporte un certain nombre d'avantages mais aussi
certains inconvénients.
Au crédit de la traduction par écrasement, on relèvera les avantages
suivants :
Elle permet de conserver le formatage du texte source.
Le texte est traduit dans son intégralité en minimisant le risque
d'oublis.
Associée à une mémoire de traduction, la méthode est rapide pour des
textes répétitifs.
La qualité de la traduction est celle d'une traduction humaine.
Mais les inconvénients sont les suivants :
La traduction doit être saisie au clavier dans son intégralité.
La qualité de la traduction peut être sujette à des fluctuations en
fonction du niveau de compétence du traducteur ou en cas de
changement de traducteur sur un même texte.
Avantages et inconvénients de la technique de post-édition
La post-édition d'une ébauche traduite automatiquement consiste en une
complète correction d'un texte. Elle demande une attention soutenue
ainsi qu'une certaine familiarisation avec les logiciels de TA pour
connaître les fautes qui sont couramment commises. Peu enseignée dans
les écoles de traduction, elle est pourtant assez couramment pratiquée
dans l'industrie. Là encore, citons les avantages et les inconvénients
les plus marquants.
Au crédit de la technique de post-édition, on relèvera :
Elle permet aussi de conserver le formatage du texte source pour
les programmes dédiés comme Systran (ce que ne permet pas Google).
Elle permet d'avoir une vue d'ensemble du texte dans la langue
cible et de le défricher plus rapidement.
Certains la considèrent comme plus rapide que la post-édition par
écrasement du fait de la présence d'une ébauche traduite
préexistante.
Elle autorise une grande consistance terminologique si les
dictionnaires utilisateurs sont bien construits pour les programmes
dédiés comme Systran (une fonction qui, là encore, n’existe pas
dans Google).
On constate une régularité dans la traduction du fait que tout
syntagme identique sera toujours traduit de la même façon.
Elle se prête tout particulièrement à la traduction technique sous
réserve de dictionnaires bien élaborés à l’aide de programmes
dédiés.
Elle facilite la circulation du texte d'un traducteur à l'autre du
fait de sa tendance à linéariser le style.
Les inconvénients sont les suivants :
Certains traducteurs la considèrent comme plus lente que la méthode
par écrasement en arguant qu'il est plus lent, voire plus
fastidieux, de corriger que de rédiger.
La post-édition tend à effacer la "patte" personnelle du
traducteur, le style apparaît uniforme, voire monotone.
La standardisation du vocabulaire tend à se substituer à la
richesse lexicale.
La post-édition n'est pas adaptée à certains types de textes à
vocation esthétique, ce n’est pas un outil à utiliser en traduction
littéraire ou dans toute tâche où une analyse philologique du texte
est nécessaire.
Il est plus facile d’omettre de traduire certains passages qui
resteront sous forme d'ébauche.
Conclusion
La traduction automatique, n'en déplaise aux professionnels de la
traduction, n'est pas morte et connaît même avec les systèmes
statistiques de traduction automatique un regain de popularité. Si les
maladresses d'autrefois prêtaient, et pour certaines, prêtent toujours
à sourire, son utilité est indéniable dans certaines paires de langues,
et en particulier à partir de et vers l'anglais. En revanche, certaines
autres paires de langues posent toujours un plus grand nombre de
problèmes, ce constat ne s'appliquant bien entendu pas aux seuls
systèmes évoqués ici.
Comme le souligne Christian Boitet (Boitet, 2007 : 25), « les corpus
utilisés en TA de l’écrit et de l’oral ont évolué, depuis les suites de
test et les corpus d’essai des débuts, vers des corpus parallèles
bilingues ou multilingues, bruts ou enrichis par des métadonnées et une
grande variété d’annotations linguistiques. » Les systèmes statistiques
reposant sur de tels corpus, comme Google translate, du fait qu’ils
s’appuient sur des traductions humaines réalisées en amont, peuvent
constituer une aide précieuse et tendent par leurs performances à
dépasser les systèmes par transfert. Mais il faut toutefois relativiser
et quelques exemples ne suffisent pas pour juger d’un système.
Du fait de l’évolution des systèmes, la réalisation d’une ébauche
automatique apparaît de moins en moins absurde et la familiarisation
avec la technique de post-édition devrait faire partie de tout cursus
de traduction, même à titre accessoire, dans la mesure où elle accentue
le recul critique vis-à-vis du texte cible et exerce l'acuité du
réviseur.
Ce texte a été rédigé durant l'été 2008, depuis, une nouvelle version
commercialisée en juin 2009, Systran Enterprise Server 7, a adopté en
partie l'approche statistique grâce à son moteur de traduction hybride
entraîné à partir de l'Acquis Communautaire, le corpus multilingue de
la Commission européenne et réalisé en collaboration avec Philipp Koehn
de l'Université d'Edimbourg.
________________________________________________________________________
BIBLIOGRAPHIE
__________________________________________________________________
Boitet Christian, 2007, « Corpus pour la TA : types, tailles et
problèmes associés, selon leur usage et le type de système », dans
Revue française de linguistique appliquée, Vol. XII, 2007/1, pp. 25-38.
Brown Peter F., Della Pietra Stephen, Della Pietra Vincent J., Jelinek
Frederick, Lafferty John D., Mercer Robert L., Roossin Paul S., 1990,
« A Statistical Approach to Machine Translation », dans Computational
Linguistics, vol. 16/2, p. 79-85.
Gross Gaston, 1995, « Une sémantique nouvelle pour la traduction
automatique : les classes d’objets », dans La Tribune des Industries de
la Langue et de l’Information électronique, n°17-18-19, pp. 16-19.
Hutchins John, 2004, « Machine translation and computer-based
translation tools. A new spectrum of translation studies », dans Bravo
José Maria (ed), Publicationes de la universidad de Valladolid,
p. 13-48.
Koehn Philipp, Hoang Hieu, 2007, « Factored Translation Models », dans
Proceedings of the 2007 Joint Conference on Empirical Methods in
Natural Language Processing and Computational Natural Language
Learning, Prague, p. 868-876.
Lakoff George, 1972, « Hedges: A Study in Meaning Criteria and the
Logic of Fuzzy Concepts », dans Perantean P. M., Levi J. N., and
Phares G. C. (ed.), Papers from the 8th Regional Meeting, Chicago
Linguistics Society, p. 183-228.
Loffler-Laurian Anne-Marie, 1983, « Pour une typologie des erreurs dans
la traduction automatique », dans Multilingua, vol. 2, n° 2, p. 65-78.
Mel’čuk Igor, 1998, « Collocations and Lexical Functions », dans Cowie
Anthony P. (ed.), Phraseology: Theory, Analysis and Applications,
(Oxford Studies in Lexicographie and Lexicology), Oxford, Oxford
University Press, p. 79-100.
Och Franz Josef, Ney Hermann, 2004, « The Alignment Template Approach
to Statistical Machine Translation », dans Computational Linguistics,
vol. 30, n° 4, p. 417-449.
#Lingua Custodia » Flux Lingua Custodia » Flux des commentaires Lingua
Custodia » L’apprentissage par réseau de neurones pour les outils de
traduction automatique Flux des commentaires Un aperçu du futur pour la
gestion de patrimoine L’Autorité Monétaire de Singapour sélectionne une
FinTech française pour participer au Global FinTech Hackcelerator 2017
alternate alternate alternate alternate alternate
L’apprentissage par réseau de neurones pour les outils de traduction
automatique
8 août 2017Olivier
La traduction automatique est en train de vivre un nouveau tournant
technologique et d’effectuer un nouveau saut qualitatif.
Apparue initialement dans les années 50 avec les premiers ordinateurs,
la traduction automatique était alors construite sur la base de règles
linguistiques : on passait alors des heures à « programmer » des
dictionnaires et des règles de grammaires pour obtenir des résultats
peu probants.
Un premier tournant technologique s’est déroulé il y a une dizaine
d’années avec la création de moteurs de traduction automatique à partir
d’une approche purement statistique. On a volontairement laissé de côté
les règles grammaticales et les lexiques pour faire confiance aux
mathématiques et aux modèles construits à partir des millions de
phrases disponibles en plusieurs langues. Le machine learning a ainsi
fait son apparition dans la traduction automatique et a permis la
création d’outils de traduction automatique très finement réglés pour
traduire certains types de textes avec une grande précision car les
modèles n’étaient « nourris » qu’à l’aide de certaines catégories de
textes.
Logiquement, l’étape suivante a été de chercher à améliorer les
résultats obtenus grâce aux statistiques avec des règles linguistiques
créant ainsi une approche hybride. Avec ce modèle toujours utilisé
aujourd’hui, lorsqu’une phrase est envoyée en traduction, l’algorithme
va regarder chaque mot individuellement puis ceux qui le précèdent et
le suivent jusqu’à une dizaine de mots de distance pour déterminer la
meilleure proposition de traduction dans ce contexte, un post
traitement linguistique cherchera à corriger d’éventuelles erreurs
grammaticales et lexicales en sortie. Cette approche donne de bons
résultats, très précis pour des textes techniques mais il est toujours
visible que le texte a été produit par une machine, certaines erreurs
de grammaire pourront toujours apparaitre car le texte demeure traduit
mot par mot même si le contexte est pris en compte.
Le recours aux réseaux de neurones rendu possible par la puissance de
calcul que l’on trouve dans les cartes graphiques (GPU) change à
nouveau la donne. En plaquant des modèles mathématiques sur plusieurs
niveaux pour « entraîner » les moteurs de traduction automatique, on
peut désormais leur demander de traduire des phrases dans leur ensemble
en fonction du concept ou de l’idée qu’elle présente et non plus mot
par mot. Cette approche permet de traiter de façon bien plus efficace
les langues asiatiques, ou encore l’allemand, langues pour lesquelles
l’ordre des mots est très différent de l’anglais ou du français. Les
phrases étant désormais traduites d’un bloc, celles-ci sont donc plus
cohérentes dans leur ensemble et il est beaucoup plus difficile
d’identifier qu’elles ont été produites par une machine. Cette
technologie permet donc de produire des traductions mieux construites
et plus élégantes et change la nature de la revue qui doit être
effectuée par les relecteurs humains. Auparavant, les relecteurs se
concentraient sur les tournures de phrases et les corrections
grammaticales, désormais, il leur faut davantage se concentrer sur la
validation du sens des phrases. En effet, les réseaux de neurones
informatiques comportent tellement d’analogies avec ceux du cerveau
humain qu’ils vont en adopter certains défauts : ils ne vont pas
toujours avouer qu’ils ne savent pas. Lorsqu’une phrase comporte un mot
jamais rencontré dans l’apprentissage de l’outil, un moteur créé par
approche hybride (statistico-linguistique) laissera le mot tel quel en
considérant que c’est un nom propre indiquant clairement au relecteur
qu’il y a un problème avec cette phrase. Le moteur neuronal pourra
quant à lui soit omettre le mot en question pour ne pas casser la
structure de la phrase cible, soit deviner ce dont il s’agit en
fonction du contexte. Dans les deux cas, le relecteur devra porter une
attention particulière pour ne pas perdre en précision dans la
traduction d’une phrase par ailleurs bien construite.
Les technologies évoluent et l’intelligence artificielle ouvre de
formidables perspectives pour les outils d’aides à la traduction. Comme
les voitures autonomes, il reste plus sûr de conserver les mains
derrière le volant mais la traduction automatique, lorsqu’elle est
spécialisée sur un secteur bien particulier comme le domaine financier,
permet aux institutions financières de communiquer de façon plus rapide
et à meilleur marché auprès de leurs clients et de répondre aux
contraintes toujours croissantes de transparence imposées par les
régulateurs, les marchés et les investisseurs.
Le fantasme de la traduction automatique : esquisse d’un imaginaire frelaté
14 avril 2015
Résumé : Cette contribution vise à explorer l’imaginaire qui entoure la
traduction automatique (TA), notamment en ce qui concerne la recherche
fondamentale et ses applications. Il s’agit de retracer les étapes
importantes de l’histoire de la traduction automatique pour mettre en
lumière certaines des attentes alimentées par l’imaginaire
technologique et, en retour, montrer comment ces attentes ont teinté à
la fois les directions qu’a emprunté la recherche, les applications qui
en sont nées et l’accueil qu’on leur a réservées. Une fois ces tensions
esquissées, nous proposons un recadrage de cet imaginaire, lequel
pourrait s’incarner dans la figure du cyborg.
There is a broad continuum of ways in which man and machine can
share the translation responsibility. It ranges from Bar-Hillel's
FAHQT (Fully Automatic, High Quality Translation) to Kay's HTLGI
(Human Translation Like God Intended).
(Merle D. Tenney, « Machine Translation, Machine-aided Translation,
and Machine-impeded Translation », Tools for the trade : Translating
and the Computer 5, 1985, p. 105)
En 1997, quand Alta Vista fournit son application gratuite de
traduction automatique, elle la baptise BabelFish, en référence au
poisson du même nom imaginé par Douglas Adams^1. L’étonnant symbiote
jaune n’est que l’une des innombrables incarnations du mirage de la
traduction automatique, que l’on conçoit à tout coup sans intervention
humaine. Tant dans la littérature qu’au cinéma, les exemples
pullulent : des puces « microsoft » de l’univers de Gibson à C3PO,
l’aimable diplomate cybernétique, en passant par le traducteur
universel de Star Trek, les auteurs de science-fiction rivalisent
d’imagination pour expliquer comment un tel exploit pourrait devenir
réalité, mais sans jamais vraiment en livrer le mécanisme.
Ceci dit, l’idée d’éliminer l’élément humain de la traduction, puisque
subjectif, lent ou encore encombrant, ne se limite pas au domaine de
l’imaginaire, et ne date pas d’hier. On recense, en Allemagne au XVIIe
siècle, la première tentative de produire des traductions
mécaniquement, à l’aide de tables de calcul. Johannes Becher, un moine
de Speyer, avait conçu un métalangage mathématique décrivant le sens de
nombreux mots dans plusieurs langues. Il s’agissait, en quelque sorte,
d’une tentative de formalisation des langues naturelles et de leurs
relations complexes, tentatives qui seront reprises plus tard avec
quelque succès. Ainsi, une phrase dans n’importe quelle langue incluse
dans le système de Becher pouvait être traduite mécaniquement en
fonction de formules préétablies^2. Il faudra évidemment attendre que
s’écoule la première moitié du XXe siècle, avec la naissance des supers
calculateurs et autres cerveaux mécaniques, avant de voir de réelles
percées (même si elles restent timides) dans le domaine du traitement
automatique des langues, et particulièrement de la traduction
automatique (TA).
Je propose donc de revenir sur les grandes étapes de la recherche en TA
en vue de souligner quelques-uns des écarts entre réalité et fiction,
entre possibilités et attentes, et de montrer ainsi que les maladresses
et l’inadéquation que l’on reproche encore souvent aux systèmes de TA
les plus sophistiqués n’ont d’autres sources que cet imaginaire
grandiose, qui ne peut que décevoir une fois ramené à hauteur du réel.
L’âge d’or
Le milieu du XXe siècle, qui voit la naissance de la TA comme nous la
connaissons aujourd’hui, est effervescent à bien des égards. D’une
part, pour la première fois de l’histoire, les ordinateurs, ces
« cerveaux électroniques », sont suffisamment puissants pour répondre
aux rêves d’automatisation des scientifiques. D’autre part, la Guerre
Froide engendre un besoin impérieux pour les Américains d’être au fait
des activités des Russes et vice-versa. Ainsi, les années 50 et 60 se
voient le théâtre d’une course effrénée à qui pourra le premier
maîtriser à la fois la machine et le langage. Les prédictions des
principaux intéressés font preuve, avec le recul, d’un optimisme bon
enfant qui paraît friser la naïveté.
On s’accorde généralement pour attribuer la paternité de la recherche
en traduction automatique à Warren Weaver, alors à l’emploi de la
Rockefeller Foundation^3. Dès 1947, Weaver se demande, dans sa
correspondance^4 avec Norbert Wiener, le premier cybernéticien, s’il
est concevable que les ordinateurs puissent servir à la traduction de
textes rédigés en langues naturelles (par opposition à des textes codés
dans une « langue artificielle »). Wiener lui répond par la négative^5,
mais sa réflexion se poursuit néanmoins, et en 1949, il rédige un mémo
qui passera à l’histoire et jettera les bases de la recherche en TA,
pour le meilleur et pour le pire. De cette première correspondance, on
cite généralement le passage suivant :
I have a text in front of me which is written in Russian but I am
going to pretend that it is really written in English and that it
has been coded in some strange symbols. All I need to do is strip
off the code in order to retrieve the information contained in the
text.^6
L’analyse acceptée généralement est que le mémorandum influencera la
traduction automatique pour les décennies à venir, lui donnant une
saveur résolument (et négativement) cryptographique, surtout en regard
des approches subséquentes. J’ai aussi fait mienne cette analyse dans
mes recherches précédentes^7, jusqu’à ce qu’une lecture plus attentive
me permette de remarquer que Weaver n’était pas aussi ignorant des
difficultés intrinsèques au traitement automatique des langues (comme
la traduction automatique) que l’on a bien voulu le rapporter.
Mathématicien et conseiller scientifique, Weaver souligne d’emblée son
ignorance des subtilités du jeune domaine de la linguistique
computationnelle et de l’automatisation des langues naturelles. Il fait
néanmoins preuve d’une vision remarquable, décrivant avec une justesse
étonnante les trois générations de systèmes de TA^8 qui nous sont
aujourd’hui familières. Qui plus est, il esquisse aussi l’idée, qui
sera reprise par de nombreux chercheurs par la suite, que les langues
restreintes et les vocabulaires contrôlés pourraient constituer une
piste non négligeable^9. Enfin, il est important de souligner, à notre
avis, que Weaver avait vu juste en se demandant si viser un système
parfait ne relevait pas de l’utopie et en proposant plutôt de viser une
performance acceptable pour un nombre tolérable de cas^10. En somme,
alors que la position de Weaver semble nuancée et que ce dernier
recommande en toutes lettres une approche statistique^11, ses
contemporains et les historiens n’ont retenu du mémorandum que les
aspects cryptographiques et mathématiques au détriment du reste ; les
premiers, probablement en raison des limites de l’informatique de leur
temps, les seconds, puisque c’est cette approche qui a tenu le devant
de la scène jusque dans les années 70.
Ainsi, stimulés en grande partie par l’impulsion de Weaver, de nombreux
chercheurs des années 50 s’emploient à décoder le langage, en vue de
dégager une structure universelle qui s’appliquerait à toutes les
langues. Rapidement, la première tentative réussie de traduction
automatique^12 a été réalisée, le 7 janvier 1954, du russe vers
l’anglais, à l’aide d’un dictionnaire de 250 mots et de six règles de
transfert syntaxique, dans les laboratoires de l’Université Georgetown
(en collaboration avec des chercheurs d’IBM)^13.
La réaction est immédiate et euphorique : les titres de journaux
laissent entendre que le processus est sans effort et que les
ordinateurs sont d’ores et déjà prêts à prendre la relève : « Russian
is turned into English by a fast electronic translator », peut-on lire
en première page du New York Times le lendemain^14. Le Christian
Science Monitor, rapporte le 11 janvier que « The brain didn’t even
strain its superlative versatility and flickered out its interpretation
with a nonchalant attitude of assumed intellectual achievement. »^15
Cependant, la démonstration de Georgetown présentait quelques
caractéristiques qui continuent jusqu’à aujourd’hui d’accabler les
chercheurs. En effet, le grand public a rarement conscience que les
conditions de laboratoire sont très strictes lors de ces
démonstrations. Par exemple, dans le cas de Georgetown-IBM, on a
rigoureusement sélectionné 49 phrases à traduire, qui devaient
respecter certains critères précis. En effet, toutes les phrases
étaient déclaratives et simples et tous les verbes étaient à la
troisième personne^16. Par ailleurs, comme le remarque Melby, les
systèmes de traduction automatique doivent toujours être ajustés, ce
qu’il compare à l’auditeur qui manipulerait les boutons de sa radio
pour améliorer la réception. De la même façon, explique-t-il, les
systèmes de TA sont ajustés en fonction des phrases qu’on leur demande
de traduire^17. Il va sans dire que les scientifiques de Georgetown-IBM
avaient consciencieusement entraîné leur système pour le grand jour, ce
qui a certainement contribué à impressionner à la fois le public et les
bailleurs de fonds, alors que la nature même du système rendait
difficile la reproduction de ces exploits à grande échelle. Il n’en
reste pas moins que, dès lors, les équipes de recherche en TA ont le
vent dans les voiles et les subventions affluent^18.
Rapidement, toutefois, l’approche directe laisse entrevoir
quelques-unes de ses faiblesses. Tout d’abord, le nombre de règles
nécessaires au traitement de textes généraux dépasse rapidement les
capacités des linguistes et des ordinateurs qu’ils utilisent.
L’ambigüité, notamment, est un problème très criant pour l’approche
directe. La traduction d’expressions imagées ou de métaphores donne
souvent des résultats pour le moins cocasses^19. Par ailleurs, cette
approche produit des systèmes qui ne fonctionnent qu’avec une seule
paire de langues, souvent dans une seule direction. On peut tout de
suite constater le casse-tête potentiel lorsque l’on s’attaquera à un
marché du calibre de celui de l’Union européenne puisque, comme le
souligne plus tard Pierre Isabelle : « pour traduire entre n langues on
a besoin de n(n-1) modules de règles (CE : 2322 = 506 !) »^20 ^21.
Tous ces désagréments, cependant, n’ont été pleinement constatés et
reconnus que bien des années plus tard, et les systèmes à approche
directe ont tout de même régné sans compétition pendant près de trois
décennies.
Un coup dur
Dans la foulée du succès de Georgetown-IBM, on croyait bien avoir
trouvé la clé permettant de réduire en poussière la tour de Babel et de
voir l’avènement d’un monde où la traduction n’aurait plus besoin
d’intervention humaine. Les réjouissances allaient être de courte
durée. En effet, les efforts de toute une génération de chercheurs
allaient se voir presque anéantis par le rapport de l’ALPAC (Automatic
Language Processing Advisory Committee) en 1966. Ce rapport, aussi
connu sous le nom de « Black Book on Machine Translation », allègue, en
somme, que la TA est inefficace, inadéquate et trop couteuse^22.
L’impact, que l’on peut expliquer par la grande différence entre les
attentes des bailleurs de fonds et la réalité de la recherche, fait
trembler le monde de la traduction automatique et sonne le glas de
nombreuses initiatives dans le domaine. Dès lors, les subventions de
recherche et de développement pour la TA se voient réduites presque à
néant, particulièrement en Amérique du Nord.
Ce que les historiens relèvent rarement, c’est que le Black Book ne
condamne pas d’emblée toute recherche sur l’automatisation de la
traduction, mais bien les efforts qui visent à atteindre la traduction
entièrement automatique de haute qualité (TAEHQ) sur texte général sans
intervention humaine. Ainsi, si peu d’équipes visent cette dernière (il
se trouve tout de même quelques irréductibles, particulièrement hors
des États-Unis), on commence à explorer partout dans le monde de
nouvelles voies comme les systèmes à langue restreinte, ou alors des
systèmes ne fonctionnant qu’à l’intérieur de domaines de spécialité.
The Quiet Decade
En fait, si les militaires américains abandonnent pour le moment la
recherche en TA, les gouvernements européens, canadien et japonais,
eux, sont toujours de la partie. Hutchins^23 et Somers^24 s’accordent
pour dire qu’en raison de facteurs sociopolitiques et culturels, la
demande en traduction dans ces pays n’a jamais diminué. En Europe, les
échanges multilingues entre les différents pays motivent des
entreprises adaptées à cette réalité. La Commission européenne rachète
SYSTRAN, un système américain de deuxième génération et en poursuit le
développement^25. D’autres projets voient le jour en France, en
Allemagne et en Italie. Au Canada, c’est le bilinguisme législatif qui
motive la recherche. Au Japon, ce sont les avancées informatiques
réalisées par les chercheurs en vue de manipuler le système d’écriture
qui aiguillonne les chercheurs : les succès sont si probants que les
universités et le secteur privé décident d’appliquer leurs découvertes
à la traduction automatique Anglais-Japonais^26. De l’approche
cryptographique mot-à-mot des premières années, on passe à une approche
linguistique qui est caractérisée par la formalisation des langues
naturelles, soit via une interlangue, soit à l’aide de grammaires
formelles et de métalangages informatiques. Une passation des pouvoirs,
en somme, des cryptographes et mathématiciens vers les spécialistes de
la linguistique computationnelle.
Cependant, ces approches de deuxième génération ont aussi leurs
faiblesses. Tout d’abord, il faut supposer que le texte source est
grammaticalement correct. Pour des essais contrôlés en laboratoire, la
question est peu pertinente, mais si le système vise la
commercialisation et sera utilisé pour des textes généraux, il est
impossible de garantir un résultat à tout coup. En outre, les modules
d’analyse ont du mal à traiter des ambigüités grammaticales qui ne
ralentiraient pas un traducteur humain. L’exemple par excellence^27
pour illustrer les faiblesses de cette génération est « Time flies like
an arrow », dont la structure pour une machine est très difficile à
analyser hors contexte et pourrait ainsi être traduit par quelque chose
comme « Les mouches du temps aiment la flèche ».
Il nous faut rappeler que les équipes de recherche en TA se sont
tournées vers les spécialistes de la linguistique computationnelle pour
résoudre les problèmes de l’automatisation de la traduction et ont
délaissé au même rythme les cryptographes qui avaient fait leur succès.
De plus, à la fin des années 70 et au début des années 80, les progrès
en informatique permettent aux chercheurs de concevoir des systèmes de
plus en plus complexes et de traiter des volumes de données sans
commune mesure avec les précédents.
Ainsi, la « Quiet Decade » est dominée par les approches par
interlangue et par les formalismes linguistiques. On expérimente aussi
avec les langues restreintes, les vocabulaires contrôlés et les
sous-domaines. Les systèmes gagnent en complexité et deviennent
modulaires. La recherche en TA est principalement influencée par les
domaines de la linguistique structurelle et de l’informatique. Par
ailleurs, de plus en plus de chercheurs ont abandonné l’idée de la
traduction complètement automatique : l’interactivité, avec en bonne
place la postédition, fait son apparition comme partie intégrante des
processus de traduction automatique.
Au cours des années 80, c’est l’approche indirecte par transfert qui
règne sans conteste sur le paysage de la TA^28. En effet, les approches
par interlangue ne semblent pas remporter les succès attendus, et l’on
préfère en conséquence plancher sur des approches moins ambitieuses^29,
mais plus réalistes. Les universités et les organismes gouvernementaux
sont toujours au premier plan de la R et D à travers le monde, mais le
rôle du secteur privé commence à prendre de l’ampleur que l’on n’avait
pas vue jusqu’alors.
En d’autres mots, force est de constater que la « Quiet Decade », même
si elle laissera sa marque dans l’imaginaire de la recherche en TA et
dans celle des principaux commanditaires, notamment en rendant presque
taboue l’appellation « traduction automatique »^30, n’aura pas été
stérile sur le plan de la recherche, mais aura plutôt été un passage
obligé pour en arriver aux systèmes dont nous profitons aujourd’hui.
Une révolution statistique
Le domaine de l’informatique subit aussi des transformations
importantes qui auront des répercussions sur la TA et la TAO. En effet,
la fin des années 70 voit la naissance des premiers ordinateurs
personnels et au cours des années 80, ces derniers se répandent à
grande échelle dans les milieux professionnels. Les avancées en
micro-informatique transforment en profondeur le monde de la
traduction : la standardisation des plateformes, le développement des
interfaces-utilisateurs et l’apparition des périphériques de stockage
de données plus performants sont autant de facteurs qui ont facilité
l’adoption des outils de traduction assistée par ordinateur (TAO) chez
les traducteurs^31, outils qui, comme leur nom l’indique, ne permettent
pas de traduire de façon automatique, mais qui assistent les
traducteurs dans leur travail.
Ainsi, l’automatisation grandissante du monde du travail (phénomène qui
ne se limite pas à la traduction, bien sûr) fait naître de nouveaux
besoins. En conséquence, observe Hutchins, « MT was coming out of the
laboratory onto the marketplace and into the office »^32. Au cours de
cette décennie, explique-t-il, les faiblesses des systèmes de TA sont
obligeamment reconnues et l’on propose ces derniers, non plus comme un
moyen de remplacer les traducteurs, mais bien comme des aides à la
traduction^33. Il n’est donc pas surprenant de constater que nombre de
chercheurs s’emploient à développer la TAO et que nombre d’institutions
et de grandes organisations qui œuvrent en traduction cherchent à
l’implanter. Qui plus est, les premiers systèmes commerciaux font leur
apparition sur le marché. ALPS et Weidner sont les fers de lance du
mouvement, mais plutôt que de les promouvoir comme de la TA, on les
commercialise comme des aides à la traduction puisqu’ils ont besoin de
beaucoup d’intervention humaine pour produire des traductions
acceptables^34. Ces conditions sont essentielles au changement de
paradigme qui nous mènera à la TA contemporaine.
Le prochain grand virage de la traduction automatique est amorcé à la
fin des années 80, sur les chapeaux de roues, par Fred Jelinek, chef du
groupe de recherche d’IBM sur la reconnaissance vocale, à l’occasion de
la Fourth International Conference on Theoretical and Methological
Issues in Machine Translation : « Each time I fire a linguist, my
performance goes up »^35. La traduction automatique statistique (TAS)
est une méthode empirique qui s’affranchit complètement des modèles
linguistiques rigides et s’appuie sur un ensemble de données
organisées, le corpus bilingue ou multilingue aligné. Il s’agit
d’aligner des phrases, des groupes de mots et des mots individuels de
deux textes parallèles pour ensuite calculer la probabilité que
n’importe quel des mots dans une phrase donnée en langue source
corresponde avec un ou des mots qui font partie de la phrase qui lui
est liée dans le texte en langue cible. L’hypothèse qui sous-tend la
TAS est la suivante : une phrase (S) de langue source peut avoir un
grand nombre de traductions (T) et chacune de ces traductions a une
probabilité plus ou moins grande d’être adéquate ; en théorie, il n’y a
pas de traduction « correcte » ou « incorrecte »^36. C’est l’approche
qu’utilisent aujourd’hui Google et Microsoft, notamment, avec
modifications à l’avenant, bien sûr, et avec le succès que l’on
connaît.
En d’autres mots, le concept de n-grammes est la solution de Jelinek au
problème du modèle de langue, solution qui lui permet en fait d’éviter
la formalisation linguistique^37. Les chercheurs en TAS l’ont plus tard
adapté à leurs besoins, car Jelinek s’était plutôt concentré sur les
trigrammes (séquence de trois mots)^38. Néanmoins, le principe reste
inchangé. Il s’agit simplement de segmenter automatiquement le corpus
unilingue de langue cible aligné en séquences de n-mots. Ces séquences
sont ensuite compilées et après analyse statistique, le système
attribue à chacune d’elles une probabilité basée sur sa fréquence
d’occurrence. Les séquences, ainsi analysées et associées à leur
« score » de probabilité forment le modèle de langue, qui fournira la
sortie en langue cible^39. Le corpus bilingue aligné subira le même
sort, mais les séquences seront enregistrées dans la table des segments
du système de TAS en fonction de la probabilité que le segment source
soit traduit par un ou des segments cibles donnés. Cette table est gage
de la fidélité de la traduction^40.
La TAS offre de nombreux avantages, mais a aussi certains
inconvénients. D’une part, il est facile d’entraîner les systèmes : il
suffit d’ajouter des textes à leur corpus pour les renforcer. Il en
découle aussi qu’ils sont facilement adaptables à un domaine en
particulier : plus on fournit des textes précis et spécialisés au
corpus (qui présentent donc moins d’ambigüités), mieux le système
apprendra le nouveau domaine et pourra fournir de bonnes traductions.
Ce type d’apprentissage a aussi pour conséquence qu’il est relativement
peu coûteux (notamment en ce qui concerne les ressources humaines)
d’entraîner et de modifier ces systèmes. Par ailleurs, la TAS traite
admirablement les expressions idiomatiques et offre des traductions
beaucoup plus agréables au lecteur que ce que pouvaient offrir certains
systèmes à base de règles. Cependant, les systèmes de TAS ont des
inconvénients à l’avenant. Par exemple, ils n’ont aucune connaissance
sémantique ni pragmatique et les registres de langue restent un mystère
pour eux. Plus grave, puisqu’ils n’ont recours à aucune grammaire, ils
commettent parfois des fautes d’accord qu’un système à base de règles
n’aurait jamais perpétrées^41.
Le tableau suivant, dont les données ont été tirées de Kuhn (2010),
illustre les forces et les faiblesses de la TAS, avec des traductions
tirées de Google Translate. Nous y avons ajouté la traduction
qu’offrait récemment Google Translate en comparaison.
Anglais
Traduction GT (09/2010)
Traduction GT (07/2013)
That’s another kettle of fish
C’est une autre paire de manches
C’est une autre paire de manches
The girl is attractive
La jeune fille est jolie
La jeune fille est attrayant.
The girl who arrived last Wednesday is attractive.
La jeune fille qui est arrivé mercredi dernier est attrayant.
La jeune fille qui est arrivé mercredi dernier est attrayant.
Tableau comparatif de traductions fournies par Google Translate à trois
ans d’intervalle (données 2010^42)
On remarque tout de suite le changement qui a eu lieu dans les
résultats obtenus. Le premier exemple reste inchangé et confirme la
remarque de Kuhn sur la maîtrise des expressions idiomatiques par les
systèmes de TAS. Le dernier exemple reste lui aussi inchangé et
illustre bien les catégories d’erreur d’accord typiques de la TAS qui
surviennent lorsque l’adjectif qui qualifie un nom est placé trop loin
dans la phrase pour que système puisse « comprendre » qu’il doit être
accordé. La même remarque explique la traduction boiteuse
d’« attractive » dans le troisième exemple. Cependant, la construction
du deuxième exemple ne devrait pas poser problème à Google Translate,
puisque le nom et l’adjectif qu’il qualifie sont très proches l’un de
l’autre. Kuhn indique qu’« un système TABR aurait probablement omis
jeune et mis attrayante », mais que puisque la traduction de Google
Translate est moins littérale, « La TAS a bien marché ici [sic] »^43.
Que s’est-il passé en trois ans ? La jeune fille est restée, mais elle
devenue « attrayant », le système commettant une erreur qu’il n’avait
pas faite au départ. Évidemment, il y a peu de chance qu’une telle
chose se produise avec un système à base de règles, puisque les
ressources que requiert un changement dans ce type de système sont très
élevées. Ce désagrément illustre bien le prix à payer si l’on veut
profiter des avantages qu’offre un système malléable : les
modifications peuvent aller trop loin. Bien sûr l’exemple présenté ici
est extrême, puisque Google Translate s’appuie en partie sur les
modifications proposées par ses utilisateurs, mais la situation peut
facilement se reproduire dans un système implanté en entreprise si des
mesures ne sont pas prises pour assurer une certaine qualité au corpus
d’entraînement. Il n’en reste pas moins, que malgré ces accrocs, la TAS
reste une approche fiable dont l’efficacité n’est plus à prouver.
Un malentendu qui perdure
Qu’en est-il du traducteur, dans tout cela ? Depuis les années 50, nous
avons vu défiler cryptographes, mathématiciens, linguistes,
informaticiens, statisticiens, mais pas de traducteurs. Puisqu’il
s’agissait d’ailleurs au départ de les éliminer, il ne faut donc pas se
surprendre de constater que la majorité se soit tenue loin de la
recherche en traduction automatique. Dans « The Proper Place of Men and
Machines in Language Translation », Martin Kay montre bien le calvaire
que les traducteurs, et leurs textes, doivent subir aux mains des
machines à traduire :
There was a long period—for all I know, it is not yet over—in which
the following comedy was acted out nightly in the bowels of an
American government office with the aim of rendering foreign texts
into English. Passages of innocent prose on which it was desired
effect this delicate and complex operation were subjected to a
process of vivisection at the hands of an uncomprehending electronic
monster that transformed them into stammering streams of verbal
wreckage. These were then placed into only slightly more gentle
hands for repair. But the damage had been done. Simple tools that
would have done so much to make the repair work easier and more
effective were not to be had presumably because of the voracious
appetite of the monster, which left no resources for anything else.
In fact, such remedies as could be brought to the tortured remains
of these texts were administered with colored pencils on paper and
the final copy was produced by the action of human fingers on the
keys of a typewriter. In short, one step was singled out of a fairly
long and complex process at which to perpetrate automation. The step
chosen was by far the least well understood and quite obviously the
least apt for this kind of treatment. ^44
Il faut malheureusement avouer que la situation a perduré jusqu’à tout
récemment. Pour illustrer ce que j’entends par là, je vous propose deux
exemples relativement récents dont j’ai été personnellement témoin.
Au cours du congrès de l’OTTIAQ en 2008, où Pierre Isabelle, pionnier
de la recherche en traduction automatique au Canada, venait présenter
les résultats d’un banc d’essai du tout dernier système de traduction
automatique qui s’est tenu au Bureau de la traduction (BT). Portage,
qui depuis a gagné nombre de compétitions internationales, avait très
bien performé chez les traducteurs du Bureau de la traduction, lesquels
ont une réputation de puristes à peu près inégalée. Ces derniers se
voyaient agréablement surpris de l’idiomaticité des traductions
produites par le système, vantant son efficacité et sa facilité
d’utilisation et certains ont même demandé à continuer à utiliser la
bête. En dépit de tout cela, le pauvre conférencier a dû essuyer les
attaques qui fusaient de toutes parts lors de la période de questions.
Pourtant, les traducteurs présents dans la salle, en 2008, je vous le
rappelle, pour la plus grande partie des pigistes, ne pouvaient
évidemment prétendre dédaigner l’ordinateur, Internet et autres outils
informatiques. Notre erreur à tous, traducteurs, informaticiens,
donneurs d’ouvrage, confondus, est d’avoir espéré (ou craint) ne
serait-ce qu’un instant, que la machine remplacerait l’humain dans la
délicate (et mystérieuse) opération qu’est la traduction. Des
représentations fictionnelles, comme le BabelFish, que j’ai mentionné
en introduction, ainsi que des promesses telles que celles rapportées
par les journalistes à l’occasion de la démonstration de Georgetown-IBM
contribuent à perpétuer cette méprise.
Quelques années plus tard, en 2011, j’ai recueilli les commentaires de
quelques traducteurs du BT sur la question des technologies en
traduction dans le cadre de ma scolarité de maîtrise. Ces traducteurs
se sont tous montrés très conscients de la différence entre
« traduction automatique » (traduction faite entièrement par un
ordinateur) et « traduction automatisée » (traduction faite par un
agent humain aidé d’un ordinateur). Le premier traducteur remarque à ce
sujet que « [l]a traduction automatique donne des textes de très
mauvaise qualité » tout en mentionnant que « [l]a traduction
automatisée est un outil très précieux pour les traducteurs. »^45 La
peur de se faire remplacer par une machine reste néanmoins très
préoccupante, comme le remarque un deuxième intervenant, qui nuance
cependant ses propos pour conclure que « la traduction automatique
pourrait nous permettre de nous "débarrasser" de textes répétitifs en
[sic] ennuyeux et de nous concentrer sur de réels défis. »^46 L’avis
d’un troisième traducteur est encore plus tranché. Bien qu’il ne
s’oppose pas à l’utilisation de la traduction automatisée, la
traduction automatique le rebute. Il explique : « Tant que ce procédé
en sera encore à ses balbutiements, cela ne m’intéresse pas et, au
contraire, je dois le combattre et m’opposer à son utilisation, voire
son développement, si je veux sauvegarder mon gagne-pain pour quelque
temps encore. »^47
Si ce type de prise de position sans équivoque tend lentement à
disparaître, c’est surtout parce que les professionnels de la
traduction n’ont plus le choix et doivent s’adapter. En effet, plus que
l’informatisation du poste de travail, qui a débuté dans les années 70
pour les grands cabinets, puis qui s’est répandue chez les pigistes
avec la montée de l’informatique personnelle, c’est l’apparition d’une
culture numérique à laquelle ils ne peuvent plus se soustraire qui met
en branle un changement profond dans l’univers de la traduction. Car la
localisation, soit « the linguistic and cultural adaptation of digital
content to the requirements and locale of a foreign market, and the
provision of services and technologies for the management of
multilingualism across the digital global information flow »^48, change
la donne. Michael Cronin explique bien le changement que cela
implique :
As a result of the digital revolution of the late twentieth century,
text has become part of digital content […] Underlying the
informatics revolution is the convertibility, the ultimate
translatability, of all content to the binary code of machine
language. Computers, which initially only received text, now receive
sound and images (both static and animated). At one level, the
problem for the translator schooled in written and printed textual
traditions is how to deal with these multi-modal textual objects.
En somme, il s’agit de considérer la traduction à l’ère numérique, non
plus comme une étape d’un processus à automatiser, mais plutôt comme un
processus à intégrer dans un contexte numérique. Il y a un peu plus de
dix ans, Doug Robinson proposait un virage en ce sens : « it may be
more fruitful to shift the discussion of human-machine interfaces in
the translation field from the MT/CAT/HT triad into the realm of cyborg
translation. The motto of this new approach would be : all translators
are cyborgs. »^49
Le traducteur et la machine, dit-il, forment une entité traduisante
complexe et organisée. Il ne s’agit pas de simple collaboration, mais
de symbiose, l’un tirant profit des enseignements de l’autre. « The
machine is one of the human’s limbs or organs. Together they are a
cyborg. »^50
(Re)Construire l’imaginaire du traducteur-cyborg
Si l’imaginaire du cyborg paraît trop connoté aux yeux de certains, je
propose néanmoins de chercher du côté des récepteurs de la traduction
et des technologies, particulièrement en ce qui concerne la production
culturelle « atypique » pour recadrer la traduction dans un contexte
numérique.
Le cas de deux fansubbers d’animés japonais, que j’ai examiné dans des
travaux précédents^51, peut mettre en lumière de nouvelles dynamiques
d’appropriation et de distribution culturelle qui sont soutenues par
une relation à la technique exempte des préjugés de leurs contreparties
professionnelles. La traduction d’un animé peu connu, Berserk, est
passée dans ce cas précis dans les mains de deux enthousiastes
français, qui ont fait preuve d’une ingéniosité et d’une créativité
surprenante quant à l’utilisation des ressources techniques à leur
disposition. Passant d’un « raw » déjà sous-titré en portugais, ils
utilisent Google Translate et leur connaissance de l’univers berserkien
(qui compte un manga de plusieurs volumes et une série animée) pour
produire la version française, et Subtitle Edit pour intégrer les
sous-titres au film. Constatant que la version anglaise se faisait elle
aussi attendre, ils utilisent le même principe pour la langue de
Shakespeare.
Ce que l’exemple de Berserk démontre par ailleurs c’est que les fans
membres de ces communautés agissent à la fois comme commanditaires
(même si l’échange d’argent est plutôt l’exception), producteurs,
traducteurs, distributeurs, critiques et consommateurs de « nouveaux »
animés, en s’appropriant non seulement toutes les étapes de production,
mais aussi le produit en soi, l’adaptant selon une éthique qui leur est
propre.
En somme, si l’imaginaire traditionnel lié à TA, tant sur le plan de la
recherche fondamentale, de la recherche appliquée et de l’utilisation
professionnelle est « frelaté » comme j’ai tenté ici de le démontrer,
il est urgent, pour favoriser la poursuite des avancées technologiques
et pour assurer la survie de la profession de traducteur, de recadrer
l’utilisation des technologies de traduction automatique et automatisée
à l’aide de nouvelles représentations plus positives. La figure du
cyborg, comme manifestation de l’appropriation de composantes
technologiques par l’humain, ou encore, celle des fansubbers, comme
figures rebelles, voire romantiques, transgressant les frontières
établies de la profession, pourraient toutes deux servir de
hérault/héros pour une nouvelle ère de la traduction à l’ère de la
culture numérique.
Note finale : Cet article reprend en grande partie mes travaux
précédents, mais les revisite à la lumière de nouvelles réflexions. Je
remercie les éditeurs de m’avoir permis de partager ces dernières. Voir
la bibliographie pour les références complètes.
Bibliographie
ALPAC, Language and Machines : Computers in Translation and Linguistic,
Washington, D.C., National Academy of Science and National Research
Council, 1966.
Has, Geneviève, « Lorsqu'un Français traduit du japonais sans parler
anglais, Guts s'en tire-t-il indemne ? Les « fansubs » de Berserk et la
notion de l'acceptabilité en traduction », Journée d’études en
littérature et résonances médiatiques, Montréal, Canada, 2013.
Has, Geneviève, Le syndrome de Sisyphe dans la recherche en
technologies langagières au Canada, Mémoire de maîtrise, Département
d’études françaises, Université Concordia, Montréal, Canada, 2014.
Has, Geneviève, « La traduction, au cœur des nouvelles pratiques
éditoriales », Séminaire Écritures numériques et éditorialisation
(Paris-Montréal), Sens-public.org, Montréal, Canada, 2014(b).
Hutchins, John, « Out of the Shadows : a Retrospect of Machine
Translation in the Eighties », Terminologie et Traduction, n^o 3, 1990,
p. 275-292.
Hutchins, John, « Latest Developments in Machine Translation
Technology : Beginning a New Era in MT Research », MT Summit IV :
International Cooperation for Global Communication. Proceedings,
July 20-22, 1993, Kobe, Japon, 1993, p. 11-34.
Hutchins, John, « The Georgetown-IBM demonstration,
7^th January 1954 », MT News International, n^o 8, 1994, p. 15-18.
Hutchins, John, « Machine-Translation : A Brief History », Concise
History of the Language Sciences : from the Sumerians to the
Cognitivists, E. F. K. Koerner et R. E. Asher (dir.), Oxford, Pergamon
Press, 1995, p. 431-445.
Hutchins, John, « The Origins of the Translator’s Workstation »,
Machine Translation, vol. 13, n^o 4, 1998, p. 287-307.
Hutchins, John, « Retrospect and Prospect in Computer-based
Translation », Proceedings of MT Summit VII “MT in the great
translation era”, Low Hwee Boon (dir.), Singapour, AAMT, 1999,
p. 30-34.
Hutchins, John, « Machine Translation over Fifty Years », Histoire
Épistémologie Langage, tome 23, fascicule 1, 2001, p. 7-31.
L’Homme, Marie-Claude, Initiation à la traductique, Montréal,
Linguatech, 2008.
Melby, Alan, The Possibility of Languages, Amsterdam, Philadelphie,
John Benjamins Publishing Company, 1995.
Pérez, Celia Rico, « From Novelty to Ubiquity : Computers and
Translation at the Close of the Industrial Age », Translation Journal
[en ligne], vol. 5, n^o 1, 2001,
(page consultée le
28 novembre 2011).
Quah, Chiew Kin, Translation and Technology, New York, Palgrave
Macmillan, 2006.
Robinson, Douglas, « Cyborg Translation » dans Susan Petrilli, (dir.),
La traduzione. Édition spéciale d’Athanor : Semiotica, Filosofia, Arte,
Letteratura [en ligne], 10-2, 1999-2000,
p. 219-233,
Rosner, Michael, « Machine Translation and Human Translators », Malte,
Sunday Times, 25 avril 2005.
Somers, Harold, Computers and Translation : A Translator’s Guide, John
Benjamin, Amsterdam, 2003.
TAUS, 1954 Machine Translation Movie [en ligne], 2010,
(page consultée le 15 mai 2013).
Tenney, Merle D., « Machine Translation, Machine-aided Translation, and
Machine-impeded Translation », Tools for the Trade : Translating and
the Computer 5, Veronica Lawson (dir.), Londres, Aslib, 1985,
p. 105-113.
Traducteurs 1 à 5, Questionnaire. Non publiés, 2011.
Weaver, Warren, « Translation », Machine Translation of Languages,
William S. Locke et Andrew. D. Booth (dir.), Cambridge (Mass.), The
Technology Press of the MIT, 1955, p. 15-24.
Wheeler, Peter, « Systran », Machine Translation Today : The State of
the Art, Margaret King (dir.), Édimbourg, Edinburgh University Press,
1987, p. 192-208.
Whitecomb, Tony, « Statistical methods gaining ground », Language
Industry Monitor, n^o 11, Sept-Oct 1992, p. 1-3.
Zughoul, Muhammad Raji et Awatef Miz’Il Abu-Alshaar,
« English/Arabic/English Machine Translation : A Historical
Perspective », Meta, vol. 50, n^o 3, 2005, p. 1022-1041.
Notes
1 Pour la référence originale, voir :
http://www.bbc.co.uk/cult/hitchhikers/guide/babelfish.shtml
2 Karl Heinz Freigang, « Automation of Translation : Past, Presence,
and Future », Revista Tradumàtica [en ligne], n^o 0, octobre 2001, p.1,
3 Plusieurs références à l'appui, parmi de nombreuses autres.
Alan Melby, The Possibility of Languages, Amsterdam, Philadelphie, John
Benjamins Publishing Company, 1995, p.17.
Kristin Demos et Mark Frauenfelder, « Machine Translation’s Past and
Future », Wired [en ligne], no 8.05, mai 2000, p. 1,
Muhammad Raji Zughoul et Awatef Miz’Il Abu-Alshaar,
« English/Arabic/English Machine Translation : A Historical
Perspective », Meta, vol. 50, n^o 3, 2005, p. 1024.
Michael Rosner, « Machine Translation and Human Translators », Malte,
Sunday Times, 25 avril 2005, p.1.
Karl Heinz Freigang, loc. cit., p.1.
Celia Rico Pérez, « From Novelty to Ubiquity : Computers and
Translation at the Close of the Industrial Age », Translation Journal
[en ligne], vol. 5, n^o 1, 2001, p.2,
John Hutchins, « Retrospect and Prospect in Computer-based
Translation », Proceedings of MT Summit VII “MT in the great
translation era”, Low Hwee Boon (dir.), Singapour, AAMT, 1999, p. 1.
Marie-Claude L'Homme, Initiation à la traductique, Montréal,
Linguatech, 2008, p.12.
4 Cette correspondance est reprise dans le Mémorandum de Weaver
intitulé Translation. Une copie des textes originaux peut être
consultée à l’adresse suivante :
http://www.mt-archive.info/50/Weaver-1947-typescript.pdf.
5 « […] as to the problem of mechanical translation, lui répond-il, I
frankly am afraid the boundaries of words in different languages are
too vague and the emotional and international connotations are too
extensive to make any quasi mechanical translation scheme very hopeful.
I will admit that basic English seems to indicate that we can go
further than we have generally done in the mechanization of speech. […]
At the present time, the mechanization of language, beyond such a stage
as the design of photoelectric reading opportunities for the blind,
seems very premature. » (Weaver, 1955, p. 19) Wiener, pourtant le mieux
outillé pour attaquer le problème aux dires de Weaver, avait bien
identifié l’écueil qui guetterait les chercheurs quelques années plus
tard. Ainsi, nombre de spécialistes, incluant le « père de la TA »
lui-même ont émis des doutes quant aux chances de succès de
l’entreprise, mais leurs doléances n’ont pas eu l’effet modérateur
escompté.
6 Warren Weaver, « Translation », Machine Translation of Languages,
William S. Locke et Andrew. D. Booth (dir.), Cambridge (Mass.), The
Technology Press of the MIT, 1955, p. 18.
7 Voir entre autres Geneviève Has, 2014.
8 Première génération : approche directe (il s’agit d’une approche
mot-à-mot, utilisant principalement des dictionnaires de
correspondance). Weaver la mentionne surtout comme l’approche
privilégiée dans l’état « actuel » de la recherche. (Weaver, op. cit.,
p. 18-20)
Deuxième génération : approches indirectes (les approches à base de
règles et celles par interlangue sémantique, s’attaquant au problème de
la TA en formalisant le processus à l’aide de représentations des
langues de départ et d’arrivée, ou à l’aide d’une interlangue
sémantique. Des modules séparés de transfert d’une langue à l’autre
entrent alors en jeu pour compléter la traduction). Weaver expose
longuement sa conception des universaux du langage et justifie ainsi la
possibilité de concevoir un système de TA en formalisant complètement
le sens de tout énoncé linguistique (Ibid., p. 14-16). Ce type
d’approche a fait l’objet de projets de recherches, mais n’a donné que
peu de résultats. Weaver, bien conscient de la complexité des langues
et des limitations techniques des ordinateurs, propose aussi une
approche se basant sur une logique transformationnelle (Ibid., p.
22-23), que l’on peut assimiler à l’approche par règles qui sera la
méthode privilégiée des années 70 à 80.
Troisième génération : approches par corpus (il existe deux approches
par corpus, celles à base d’exemples, qui relève du domaine de
l’intelligence artificielle et les approches statistiques, surtout
celle utilisant les n-gramme, qui permettent de résoudre le problème du
sens à l’aide du contexte et produisent une traduction en fonction de
sa probabilité). Weaver se demande, avec beaucoup de justesse quelle
devrait être la valeur minimum de n en vue d’obtenir une traduction
acceptable dans la majorité des cas. (Ibid.) Les systèmes de TA actuels
s’appuient sur une méthodologie très semblable.
9 Warren Weaver, Op. cit., p. 20.
10Ibid., page 24.
11 « And it is one of the chief purposes of this memorandum to
emphasize that statistical semantic studies should be undertaken, as a
necessary preliminary step. » (Ibid., p. 24)
12 À ce sujet, voir la vidéo d’un entretien avec les chercheurs de
l’équipe Georgetown-IBM, qui présentent leurs prédictions
(http://www.youtube.com/watch?featur... [TAUS, 2010]).
13 John Hutchins, « The Georgetown-IBM demonstration,
7^th January 1954 », MT News International, n^o 8, 1994, p. 15.
14 Ibid., page 15.
15 Ibid., page 16.
16 Ibid., page 17.
17 Alan Melby, op. cit., page 20.
18 Ibid., page 19.
19 Peter J. Wheeler, dans Machine Translation Today, relate l’anecdote
suivante : « if it [Systran] did not produce the apocryphal sentence
about steak and vodka, [it] certainly did translate La Cour de justice
envisage la création d’un cinquième poste d’avocat général as “the yard
of justice is considering the creation of a fifth general avocado
station” » (Peter Wheeler, « Systran », Machine Translation Today : The
State of the Art, Margaret King (dir.), Édimbourg, Edinburgh University
Press, 1987, p. 192.)Pour les détails concernant « the apocryphal
sentence about steak and vodka », ou les mythes tenaces concernant la
TA, voir Hutchins, 1995, p. 17-18.
21 Il n’en reste pas moins que l’un des systèmes commerciaux les plus
anciens, SYSTRAN, a été conçu en approche directe (quoique depuis ses
débuts, des modifications y ont été apportées et que le SYSTRAN se
trouve maintenant sous la catégorie des systèmes hybrides). Les
systèmes directs sont maintenant utilisés pour des paires de langues
qui ont une structure et un vocabulaire grandement similaires, de façon
à ce que les concepteurs puissent tirer profit de cette similarité et
concentrer leurs efforts sur les différences entre les langues, sans
que ces dernières ne soient démesurées.
22 ALPAC, Language and Machines : Computers in Translation and
Linguistic, Washington, D.C., National Academy of Science and National
Research Council, 1966.
23 John Hutchins, « Machine Translation over Fifty Years », Histoire
Épistémologie Langage, tome 23, fascicule 1, 2001, p. 7-31.
24 Harold Somers, Computers and Translation : A Translator’s Guide,
John Benjamin, Amsterdam, 2003.
25 Ibid., p. 5.
26 Ibid., p. 5-6.
27 Pierre Isabelle, op. cit., p. 14.
28 John Hutchins « Latest Developments in Machine Translation
Technology : Beginning a New Era in MT Research », MT Summit IV :
International Cooperation for Global Communication. Proceedings,
July 20-22, 1993, Kobe, Japon, 1993, p. 11.
29 Id., « Machine Translation over Fifty Years », Histoire
Épistémologie Langage, tome 23, fascicule 1, 2001, p. 17.
30 Marie-Claude L'Homme, op. cit., p. 14.
31 John Hutchins, « The Origins of the Translator’s Workstation »,
Machine Translation, vol. 13, n^o 4, 1998, p. 15.
32 Id., « Latest Developments in Machine Translation Technology :
Beginning a New Era in MT Research », MT Summit IV : International
Cooperation for Global Communication. Proceedings, July 20-22, 1993,
Kobe, Japon, 1993, p. 11.
33 Ibid.
34 Id., « Out of the Shadows : a Retrospect of Machine Translation in
the Eighties », Terminologie et Traduction, n^o 3, 1990, p. 277-278.
35 Tony Whitecomb, « Statistical methods gaining ground », Language
Industry Monitor, n^o 11, Sept-Oct 1992, p. 1.
36 Chiew Kin Quah, Translation and Technology, New York, Palgrave
Macmillan, 2006, p.78.
50 Ibid.
51 Voir Geneviève Has 2013 et 2014b.
Avec l’essor de la traduction automatique, quel est l’avenir de la traduction
?
Juin 7, 2017 | 0 commentaires
Avec l’essor de la traduction automatique, quel est l’avenir de la
traduction ?
Avec le développement des solutions de traduction automatique, même
accessibles à tous via Internet, quel est l’avenir de la traduction ?
Les agences de traduction et les traducteurs professionnels sont-ils
voués à disparaître ? Quelques éléments de réponse sur ce marché de la
traduction en grande mouvance…
Que valent vraiment les solutions de traduction automatique ?
Avant tout, clarifions la notion de “traduction automatique (TA)”. Il
s’agit de traduire un texte ou un contenu audio grâce à un logiciel de
traduction informatique, sans faire appel à aucune intervention
humaine.
Depuis quelques années, et plus encore ces derniers mois, l’on peut
constater le développement de ces services de traduction en temps réels
dans de très nombreuses langues. Ainsi, Google (Google Translate) ou
proposent de “voir la traduction” de tout contenu texte écrit
dans une autre langue que celle définie par l’utilisateur. Loin d’être
parfaite, cette traduction permet néanmoins à l’utilisateur de se faire
une idée du contenu écrit afin d’en comprendre le sens.
Quelles sont les typologies de logiciels de traduction ?
Aujourd’hui, on trouve trois types de logiciels de traduction
automatique :
Les outils de traduction développés à partir de l’intégration de
dictionnaire et de règles (grammaire, conjugaison, éléments
linguistiques. Les dictionnaires peuvent parfois être spécialisés
pour offrir un contenu enrichi et donc, plus précis.
Déployées dans les années 90, les solutions basées sur l’analogie
statistique : le logiciel analyse et compare une quantité de
données traduites dans leurs différentes versions et il en déduit
la traduction la plus probable. Pour être efficaces, ces systèmes
nécessitent souvent une réflexion humaine pour apporter la
cohérence et la subtilité manquantes.
Lancé en 2010 et en perpétuelle évolution, le deep learning est une
révolution dans le développement de l’intelligence artificielle !
Basée sur des algorithmes neuronaux (NMT), la traduction
automatique s’enrichit par sa capacité d’apprentissage personnel.
Avec des résultats de traduction très satisfaisants, ce système
serait d’ailleurs en cours d’intégration par Google pour améliorer
significativement la qualité de ses traductions automatiques. De
son côté, Microsoft semble aller dans cette voie pour
l’amélioration de son outil de traduction en direct de la langue
orale intégré à Skype.
Face aux géants de l’Internet qui proposent à tous l’accès à leurs
outils, SYSTRAN, leader mondial des technologies de traduction (basé à
Séoul (Corée) avec des bureaux à Paris (France) et San Diego
(États-Unis) oppose la confidentialité de ses traductions et la cession
totale des droits sur les traductions à ses clients propriétaires des
solutions logicielles installées sur le serveur ou dans le cloud.
L’avenir de la traduction, du métier de traducteur ou de traducteur
interprète est-il menacé par les logiciels de traduction automatique ?
Si les logiciels de traduction automatique semblent prometteurs, ils
révèlent toujours des limites à considérer :
– une capacité d’enrichissement différente selon les paires de langues
et ainsi, des performances de traduction inégales ;
– une appréhension plus ou moins qualifiée selon les niveaux de langue
ou les spécialités : le langage courant offrant une vaste base de
données comparative, sa traduction sera de meilleure qualité que la
traduction littéraire ou la traduction de SMS ou encore de jeux de mots
;
– pour un texte long, les logiciels manquent de cohérence stylistique.
Puisant dans d’innombrables bases de données, le rendu est fatalement
contrasté.
Si la qualité des traductions automatiques s’améliore au fil des ans,
on est encore loin de la qualité obtenue grâce à l’intervention de
traducteurs professionnels.
L’avenir de la traduction réside ainsi dans le développement de la
post-édition qui consiste à intervenir sur un contenu prétraduit grâce
aux technologies de traduction afin de l’améliorer, de l’optimiser.
Appuyé par ces logiciels qui offrent une prétraduction considérée comme
un premier jet, le traducteur gagne en productivité et en rapidité de
traitement. Le traducteur modifie, corrige, révise le contenu traduit
en tenant compte de la version source, il harmonise le style et
enrichit le vocabulaire proposé initialement.
En adaptant le processus de traduction par une intervention en
“post-edit”, le traducteur optimise son travail par une traduction
assistée par ordinateur (TAO). Il pallie alors les limites actuelles du
logiciel et valorise son intervention : plus rapide, plus compétitive,
plus riche.
Poster le commentaire Annuler la réponse
Votre adresse de messagerie ne sera pas publiée. Les champs
obligatoires sont indiqués avec
La traduction automatique a passé l'écrit et tente de réussir l'oral
Dossier Les services de traduction automatique ont lentement mais sûrement
gagné en performance depuis une vingtaine d'années et sont aujourd'hui des
outils aussi naturels que les correcteurs orthographiques. Ces avancées qui
relèvent du domaine de l'intelligence artificielle et s’appuient sur de
complexes méthodes de modélisation du langage naturel pour passer d'une langue
à l'autre. Les acteurs comme Google ou Microsoft se sont lancés sur le sujet et
tente de relever un nouveaux défi : ne plus seulement traduire du texte traduire
en direct les paroles d'une personne quand elle parle...
Skype traduit le français vers l'anglais, l'espagnol, l'allemand... et même
le mandarin !
DossierMicrosoft a annoncé le 12 mai avoir ouvert au public son service
Skype Translator, dont l'accès était jusqu'à présent soumis à une
inscription et une[…]
Skype traduit le français vers l'anglais, l'espagnol, l'allemand... et
même le mandarin !
Babel Fish, Skype Translator... l'évolution de la traduction automatique en 5
dates clés
Babel Fish, Skype Translator... l'évolution de la traduction
automatique en 5 dates clés
Bientôt un traducteur vocal instantané pour smartphone signé Google ?
Bientôt un traducteur vocal instantané pour smartphone signé Google ?
Vidéo : Microsoft teste un service de traduction automatique simultanée sur
Skype
Microsoft veut "faire tomber les barrières de la langue", souligne
Gurdeep Pall, vice-président de Microsoft en charge de Skype, sur le
blog officiel de la messagerie. Pour[…]
Vidéo : Microsoft teste un service de traduction automatique simultanée
sur Skype
2014-12-16 |
Informatique
,
Skype
,
Microsoft
"Une innovation ? Une technologie de traduction réellement efficace", le
portrait chinois d'Antoine Denoix
Chaque semaine, L'Usine Digitale dresse le portrait chinois d'une
personnalité du numérique. Cette semaine, Antoine Denoix, Chief Digital
Officer d'Axa France, se prête[…]
Une innovation ? Une technologie de traduction réellement efficace, le
portrait chinois d'Antoine Denoix
2015-06-03 |
Le portrait chinois
"Si j'étais une technologie ? La traduction automatique", le portrait chinois
de Florian Douetteau
Chaque semaine, L'Usine Digitale dresse le portrait chinois d'une
personnalité du numérique. Cette semaine,Florian Douetteau, fondateur
de Dataiku, se prête au jeu des 13[…]
Si j'étais une technologie ? La traduction automatique, le portrait
chinois de Florian Douetteau
2015-02-22 |
Le portrait chinois
La page d'accueil du moteur de recherche Google (illustration).
La page d'accueil du moteur de recherche Google (illustration). —
M.C./20 MINUTES
Si les ordinateurs biberonnés à l’intelligence artificielle peuvent
aujourd’hui battre les grands maîtres du jeu de Go ou composer une
chanson des Beatles, l’humain conserve fort heureusement une courte
longueur d’avance dans quelques domaines. La traduction est l’un de ces
bastions : il suffit pour s’en convaincre d’explorer quelques pages Web
traduites automatiquement par des logiciels, avec des résultats qui
valent bien ce célèbre mème du jeu vidéo japonais :
2/2 Like "All your base are belong to us." Only less excellent.
pic.twitter.com/q6hiiHVIJD
— Gary Turner (garyturner) September 14, 2016
Mais la machine n’a, bien sûr, pas dit son dernier mot. Google vient
ainsi d’annoncer sur son blog dédié à la recherche que son outil Google
Traduction – ou Google Trad si vous l’utilisez régulièrement – pouvait
à présent se vanter, grâce à l’intelligence artificielle, de résultats
un peu plus proches d’une bonne vieille traduction humaine.
Réseaux neuronaux
Les chercheurs de l’entreprise californienne expliquent ainsi
travailler sur une meilleure traduction automatique grâce aux réseaux
neuronaux, des fonctions mathématiques qui imitent le fonctionnement de
notre cerveau. Ils ont développé un système nommé GNMT (Google Neural
Machine Translation) utilisant l’intelligence artificielle pour
supplanter l’approche traditionnelle. Au lieu d’analyser des syntagmes
(bouts de phrases), comme c’était le cas jusqu’à présent, GNMT ainsi
prend en compte la phrase entière, pour nous proposer des traductions
moins imbitables.
Sur certaines « paires » linguistiques comme le français et l’anglais,
Google affirme même que GNMT est proche de la qualité d’une traduction
réalisée par un humain. Il est possible de se faire sa propre idée en
jetant un coup d’œil à ce document, dont voici un extrait :
Selon Google, qui a mesuré la force de son outil sur des pages
Wikipédia et des sites d’information avec l’aide de traducteurs
bilingues, GNMT réduit ainsi les erreurs de traduction de 55 % à 85 %
selon les langues, par rapport à une bête machine.
C’est du chinois
Mais le défi est d’appliquer le système à des langues moins proches.
Google annonce que l’outil GNMT sera dorénavant utilisé directement par
l’application mobile et le site Web Google Trad pour assurer des
traductions entre le chinois et l’anglais, une combinaison réputée
difficile.
Malgré d’impressionnants progrès, la traduction automatique a encore
une grande marge de progression, préviennent cependant les chercheurs
de Google Quoc V. Le et Mike Schuster. « GNMT fait encore de grosses
erreurs qu’un traducteur humain ne ferait jamais, comme laisser des
mots de côté et mal traduire des noms propres ou des termes rares, ou
traduire des phrases de manière isolée au lieu de prendre en compte le
contexte du paragraphe ou de la page, expliquent-ils. Il y a encore
beaucoup de travail pour fournir un meilleur produit à nos
utilisateurs. »
Intelligence artificielle
Google
0 commentaire 20 partages
#LeWebPédagogique
Les traducteurs automatiques en ligne
apicot
25 juin 2013
commentaire
4 temps de lecture
Quels sont les avantages et les limites des traducteurs en ligne
gratuits, ces outils que nos élèves utilisent au quotidien ? Comment
les exploiter au mieux dans le cadre d’un apprentissage linguistique ?
Et quel traducteur utiliser sur son Smartphone ? Quels sites consulter
pour trouver des traductions déjà prêtes ? Toutes les réponses dans cet
article !
Avant l’arrivée d’Internet, les traductions se faisaient en feuilletant
les pages des dictionnaires et en appliquant une réélaboration
personnelle sur la base des connaissances syntaxiques du traducteur.
Aujourd’hui, à l’ère du web, les traductions automatiques en ligne et
gratuites sont sans aucun doute de grandes rivales du dictionnaire
traditionnel.
Comment fonctionnent les traducteurs automatiques en ligne ?
Les traductions sont proposées par des robots qui traduisent des mots
et analysent des « segments » de texte. Le robot analyse les phrases,
leurs mots et leur format. Puis ils recherchent leur forme de base et
analysent la structure de la phrase. Le logiciel commence alors à
générer la structure de la phrase dans la langue cible, prenant en
compte la forme correcte des mots et, enfin, les informations
concernant la mise en page du texte.
Quelles sont les conséquences d’une traduction de ce genre ?
Le logiciel ne replace pas les mots dans leur contexte. Ainsi, le
traducteur automatique de texte ne reconnaît pas toujours le sens dans
lequel un mot est employé et la traduction risque d’être risible, même
si, certains traducteurs indiquent plusieurs traductions possibles,
laissant le choix au traducteur quant au terme approprié.
Les avantages des traducteurs automatiques
Est-il vrai, comme on le dit sur Comment ça marche.net, que les
traducteurs en ligne et logiciels gratuits de traduction sont plus
pratiques qu’un dictionnaire et font gagner du temps ?
Selon moi, un des avantages de ces traducteurs est qu’ils facilitent la
compréhension d’un texte. Imaginez : vous recevez un courriel dans une
langue étrangère inconnue, ou encore, un lecteur étranger poste un
commentaire à une de vos affirmations : sans le traducteur, pour vous,
ces mots ne constituent qu’un charabia incompréhensible ! Bien sûr, la
traduction risque de ne pas être parfaite mais au moins aurez-vous une
vague idée du contenu et du contexte général du texte.
En revanche, j’éviterais de les utiliser pour des traductions
professionnelles qui requièrent précision et appropriation des
termes. J’éviterais aussi de les utiliser pour les publier sur des
blogs ou pour les rendre à des professeurs…
Je vous invite aussi à lire l’article suivant : le Top 40 des
traductions de merde.
Les limites des traducteurs automatiques
La « traduction automatique »
– ne produit qu’une traduction approximative du texte original,
– sert essentiellement à avoir une vision rapide du sens global d’un
texte,
– est inadaptée pour des traductions professionnelles et de haut
niveau.
Bien que constamment améliorée, la technologie de traduction en ligne
n’est encore qu’à ses débuts. L’outil informatique qui remplacera le
travail d’un traducteur professionnel n’a pas encore été inventé.
Notebook
Creative Commons License photo credit: cheesy42
Comment les exploiter au mieux dans le cadre d’un apprentissage linguistique
?
a. Enseigner à utiliser les traducteurs automatiques
L’Académie de Nice propose sur son site une séquence pédagogique sur la
traduction et les traducteurs en ligne. La méthode proposée invite les
élèves à réfléchir sur l’utilisation des traducteurs en ligne.
b. S’informer en comparant les différents traducteurs automatiques en ligne.
Deux sites ont mené une étude de ce genre :
Altissia :Quel est le meilleur traducteur automatique en ligne
gratuit ?
Cursus.edu : Quel est le meilleur traducteur automatique en ligne
et gratuit ?
Liste de traducteurs automatiques sur le Portail national éduscol
A propos des traductions pour les téléphones portables
Sur le site d’Outilstice, l’article 3 bons outils de traduction en
ligne propose des outils pour la traduction mobile, notamment des
outils à utiliser sur votre smartphone. Selon eux, Google est sans
doute le meilleur choix. L’application propose 64 langues différentes,
dont 17 dans lesquelles vous pourrez traduire du texte mais également
de la voix?!
Liens : Google pour Android / pour iOs
Sites avec des traductions de textes :
Site avec quelques traductions françaises d’e-textes
Linguee.fr, est un service en ligne gratuit qui offre la
possibilité nouvelle de rechercher du vocabulaire – des mots
simples ou bien des expressions – en français et en anglais parmi
50 millions de phrases traduites par d’autres personnes.
Les textes de références utilisés par Linguee sont issus du web
bilingue, textes donc déjà traduits par une personne – le plus souvent
un traducteur professionnel. Les sources les plus importantes sont les
textes du Parlement européen, de l’UNESCO ainsi que les textes de
brevets. Pour chaque exemple fourni, vous pouvez cliquer sur un lien
qui vous redirige vers sa source.
Traducteur SMS vers français
Commentaires
commentaires
FLE
apicot
Voir toutes les publications
Et si l'essentiel était dans la pédagogie du bonheur ?
Apprendre le FLE – Immersion en classe de français
commentaire
Annuler
Vous devez être connecté pour publier un commentaire.
Quel traducteur automatique en ligne gratuit ut... dit :
20 mars 2016 à 2:57
[…] “Les meilleurs traducteurs automatiques en ligne et gratuits:
comment choisir les meilleurs ? Comment bien traduire ? Les
traductions avec les téléphone” […]
Connectez-vous pour répondre
Cela pourrait vous intéresser aussi...
vieux-con
Chroniques de profsnon classé
Collège : En attendant les quatre commandements
À qui le tour ? Tout le monde vous le dira, je ne fais pas encore
partie des conservateurs. Les parents se plaignent auprès du principal
à cause de ma manière d’enseigner et les collègues me traitent avec
dédain de...
pcremieu
filmprof1re?duit
Chroniques de profsnon classé
Déformation professionnelle, tout un cinéma
Une chronique dessinée d’Anna
Commentaires commentaires
elise
interview-formation
Chroniques de profsnon classé
Formation des profs : la parole aux stagiaires !
État des lieux On parle souvent en mal de la formation des jeunes
profs. Depuis novembre, j’accompagne Anthony et Émilien, étudiants en
Master 1 métiers de l’enseignement, de l’éducation et de la formation
(MEEF), qui...
Emmanuel Grange
Dossier : La découverte des métiers au collège
Dossier pédagogique Parcours avenir sur la découverte des métiers au
collège
La découverte des métiers en réalité virtuelle
Partagez facilement des documents avec vos élèves
On a lu, on a trouvé cela intéressant !
IFRAME:
//ws-eu.amazon-adsystem.com/widgets/q?ServiceVersion=20070822&OneJS=1&O
peration=GetAdHtml&MarketPlace=FR&source=ac&ref=tf_til&ad_type=product_
link&tracking_id=webpedago-21&marketplace=amazon®ion=FR&placement=22
12570570&asins=2212570570&linkId=94036ecddb6e183da0ae5fcfde2e5545&show_
border=false&link_opens_in_new_window=false&price_color=333333&title_co
lor=0066c0&bg_color=ffffff
Qui sommes-nous ?
Créer / Gérer mon blog au Petit Journal des Profs
Demander de l'aide
Logo le webpedagogique
Un blog gratuit et sans publicité pour votre classe !
La traduction automatique sur Internet
Outils, méthodes, enjeux
Laetitia Bernaudon , Eva Fontaine
La traduction automatique est un outil qui a subi de nombreuses
évolutions depuis sa création, notamment avec la démocratisation
d'Internet. Aujourd'hui, ce système soulève de nombreux enjeux
socio-culturels : comment fonctionne cet outil, quelle utilisation en
font les internautes et les professionnels (traducteurs littéraires,
éditeurs) ?
(déposé le 2015-01-14 18:54:06)
La traduction automatique sur Internet : outils, méthodes, enjeux
La traduction automatique est un logiciel gratuit, accessible en ligne,
permettant de traduire un texte dans une langue de départ vers une
autre langue. Les plus connus sont Systran, Reverso, ou encore Google
Traduction. D’abord utilisés dans un contexte militaire durant la
Guerre Froide, ces logiciels servent aujourd’hui à une multitude
d’utilisateurs pour une grande variété de pratiques. La banalisation de
ces outils induit divers enjeux : en effet, il est intéressant de se
demander qui les utilise et quels en sont les avantages et les
inconvénients. Quels enjeux la traduction automatique implique-t-elle
aujourd’hui, qu’est-ce que l’arrivée d’Internet a induit comme
changements ? Pour répondre à ces questions, il conviendra en premier
lieu d’étudier l’évolution de la traduction automatique, de ses usages,
et de considérer les problèmes qu’elle soulève aujourd’hui dans un
contexte économique et culturel.
1. Les débuts de la traduction automatique
Années 1950 : Création de la traduction automatique
Dans le domaine de l’informatique, les années 1950 constituent une
période de premiers grands succès, tels que le traitement des données
numériques, qui en est encore à ses premiers balbutiements aux
Etats-Unis et en Grande-Bretagne. La traduction automatiques était
alors appelée « traitement automatique des langues maternelles ». Mais
à cette époque, la conception de cette pratique s’arrêtait à la simple
idée qu’il suffisait de substituer les données numériques en des
données alphanumériques, ce qui donnait une traduction très
artificielle et non idiomatique dans la langue d’arrivée. Il s’agissait
donc uniquement de traduire des mots, et non des expressions, voire des
textes entiers comme aujourd’hui. A l’époque, la traduction automatique
n’était pas considérée comme une activité reconnue, légitime, et les
problèmes complexes liés à la syntaxe n’étaient pas abordés. En 1952,
John Hutchins, expert mondial de la traduction automatique, donne une
première conférence sur la TA, sans se faire d’illusions quant à l’idée
d’une traduction parfaite : le manque de puissances des ordinateurs,
ainsi que d’importantes lacunes en connaissances syntaxiques rendent
les premiers outils de traduction peu efficaces. Le premier système de
TA, présenté au public en 1954, et dont les recherches ont été
financées par les États-Unis et la Russie dans un but stratégique, ne
peut traduire que quelques phrases russes vers l’anglais, en utilisant
un dictionnaire de 650 mots, comprenant 6 règles de grammaire. Ce
logiciel, servant surtout à des fins militaires, était basé sur des
règles de grammaires, rédigées par des linguistes, et fonctionnait de
la manière suivante : la langue source était analysée dans sa structure
grammaticale et le logiciel construisait un arbre syntaxique équivalent
en langue cible. L’objectif était de donner un accès direct au contenu
d’un message sans recourir à un traducteur professionnel.
Pendant que les Etats-Unis se limitent à cet usage, les recherches se
poursuivent au Canada, au Japon et en Europe, avec notamment la mise en
place du système Systran à la communauté européenne en 1976.
Premiers usages de la traduction automatique.
Tandis que, jusqu’alors, l'intérêt porté à la traduction automatique
était surtout motivé par une demande sociale couplée à la curiosité
scientifique qui découla, notamment, de la création des premières
calculatrices électroniques, le rapport ALPAC de 1966 met fin aux
financements de la recherche en matière de traduction automatique de la
part des Etats-Unis et favorise la linguistique computationnelle.
Cependant, dès la fin des années 60, le besoin du développement de la
traduction automatique est renforcé par des décisions législatives. En
1969, le Canada met en place la loi des langues officielles qui a pour
but d’officialiser le bilinguisme du pays et de réaffirmer son
biculturalisme; une législation qui nécessite un recours accru à des
processus de traduction pour permettre aux locuteurs des deux langues
officielles d’échanger et donc une recrudescence de la recherche dans
la mise en place d’outils de traduction automatique des langues
jusqu’alors en perte de vitesse car privée de subventions. Ce besoin
accru d’outils de traduction automatique n’échappa pas au Capitaine
André Gouin qui, dans sa thèse, développe l’idée du développement du
système Systran, un des rares systèmes de traduction à avoir survécu au
rapport ALPAC, spécialisé dans la traduction automatique du russe à
l’anglais pour la United State Air Force afin de l’adapter à la
traduction du français à l’anglais. L’appui que reçut le Capitaine
Gouin de la part du gouvernement canadien relança donc la recherche en
traduction automatique avec une insistance particulière sur la paire de
langues Français - Anglais.
Il n’est donc pas étonnant de voir que lorsque la Commission Européenne
choisit d’utiliser Systran pour la traduction de ses documents
internes; en 1976, la paire de langue la plus développée soit celle
anglais - français. Fournie d’origine dans le système, elle a été
utilisée sur de nombreux types de documents. Un travail de
développement de la traduction automatique dans le sens inverse
(Anglais - Français) a été entrepris conjointement par Systran et la
Commision afin de prouver la flexibilité du système. Pour cela, on fit
cett ois appel à des textes de grands organismes comme le CNRS. La
deuxième paire a être développée pour la Commission Européenne, fut
celle anglais - italien, afin de montrer qu’il était facile d’ajouter
une langue cible à une langue source pré-éxistante et ainsi subvenir
aux besoin des locuteurs italiens très présents à la Commission
Européenne.
Ces utilisations du système Systran par des organismes officiels
témoignent de la crédibilité grandissante dont peut jouir la traduction
automatique. Délaissée par la recherche scientifique, c’est en outre
ces mêmes organismes qui ont permis de relancer l’engouement pour la
recherche en traduction automatique dont l’avenir était alors
incertain.
2. Évolution : la démocratisation de la Traduction automatique
Usages pour les particuliers et les professionnels
Depuis la Deuxième Guerre Mondiale, beaucoup de pays ont investi dans
la recherche pour élaborer une machine à traduire, et de nos jours, la
traduction automatique a resurgi sous la forme de projets de recherche
mais également de produits commerciaux destinés au grand public, via
Internet.
Dans le monde de l’édition, les traducteurs se sont également approprié
cet outil, dont la plupart peuvent en apprécier les vertus en en tirer
avantage dans leur travail. Peu après l’arrivée des ordinateurs, des
logiciels de traitement de texte et correcteurs orthographiques ont été
mis à la disposition des traducteurs, ainsi que plusieurs outils dont
la firme ALPS, crée en 1980, et utilisée en majorité par de grandes
entreprises et des organismes internationaux. Le logiciel Trados,
encore utilisé de nos jours, apparaît également en 1984, ainsi que
Multitrans, crée quelques années plus tard par le canadien Gerry
Gervais. Tous ces logiciels ont pour objectif de simplifier au maximum
le travail du traducteur en l’assistant dans le processus de traduction
et en lui ouvrant des passages préalablement traduits. Le traducteur
professionnel doit maintenant choisir entre deux scénarii : partir
d’une traduction automatique vers une traduction humaine, en
l’améliorant, ou se servir de la TA en complément, c’est-à-dire en
comparant les deux résultats en d’en choisir les éléments qu’il juge
les plus pertinents.
Dans le premier scénario, le traducteur analyse les résultats de la
traduction automatique, et ne garde que quelques parties qui lui
paraissent satisfaisantes, ou en corrigeant les incohérences
grammaticales, logiques, ou terminologiques ce qui peut constituer un
gain de temps :
Exemple : élément source : « so long »
Traduction automatique : « tellement longtemps »
Traduction attendue : « adieu »
Dans le deuxième scénario, qui consiste à utiliser la traduction
automatique en complément, le traducteur compare le texte à traduire
aux mémoires de traduction : il s’agit de la mémorisation de données
par un programme dans le but d’épargner à l’utilisateur l’effort de
traduire deux fois les mêmes données.
Après une interruption des recherches suite au rapport ALPAC en 1966,
estimant que la traduction n’offrait pas assez de perspectives, de
nouvelles formes de TA refont surface avec la création de MOSES, un
logiciel mis au point par Philippe Koehl en 2007, et PORTAGE, un projet
lancé en 2004 par le CNRC (Conseil National des Recherches du Canada).
Ces deux outils s’appuient sur des données statistiques et se basent
sur des ensembles de textes afin de construire un modèle de traduction.
Les traducteurs professionnels sont à nouveau pris en compte dans les
nouveaux objectifs des traducteurs automatiques.
outils de traduction : fonctionnement et limites
La traduction automatique comprend en fait différent types de processus
informatiques de traduction. En matière de traduction via informatique,
différentes techniques et écoles s’opposent.
Un système de traduction automatique basé sur les règles ou exemples
doit être capable de maîtriser des règles grammaticales et syntaxiques
propres à la fois à la langue source et à la langue cible afin de
pouvoir reproduire des textes corrects de façon syntaxiques mais aussi
sémantiques. C’est le cas de Systran dont nous avons déjà parlé. Ce
genre de systèmes de traduction sont conçus conjointement par des
experts informatiques et des linguistes qui fixent ces régles précises.
Ils font appel à de nombreux dictionnaires spécialisés dans différents
domaines pour coller au mieux au contexte du texte source. Ainsi, le
traducteur-machine peut prendre en compte (avec plus ou moins de
justesse) la dimension sémantique du texte.
Néanmoins, l’élaboration d’un tel système et son perfectionnement
coûtent cher en personnel très qualifié et la traduction automatique
basée sur les règles ou exemples n’est donc pas un système très
propice à une commercialisation de masse.
Les moteurs de recherche et autres sites internet souhaitant intégrer
un outil de traduction automatique se tournent donc vers la traduction
automatique statistique.
3. Enjeux économiques et culturels
Economie de la traduction : l’exemple de Google traduction
L’essor de la traduction automatique se poursuit dans un secteur plus
mercantile, avec l’apparition d’une multitude de sites accessibles en
ligne, proposant des traductions rapides et gratuites : Systran,
Reverso, FreeTranslation.com, ProMT-Online, Babylon, WordLingo, Yahoo,
Lexicool…
Le plus populaire de ces sites est Google Traduction qui est, selon une
enquête comparative réalisée par ALTISSIA en 2014, le traducteur en
ligne le plus utilisé sur le Web (sources :
http://www.altissia.com/blog/fr/quel-est-le-meilleur-traducteur-en-lign
e-gratuit/)
En effet, depuis 2006, Google Traduction, un système également basé sur
une analyse statistique, propose une traduction dans plus de 74
langues.
Développement des échanges interculturels
La traduction est essentielle à la circulation des idées, ainsi que
pour le partage et l’échange culturel entre différents pays, et permet
une large diffusion des créations artistiques. La littérature étrangère
est notamment un secteur grandissant dans le monde de l’édition, et de
plus en plus de cultures peuvent ainsi être entendues. Avec la
traduction automatique, les éditeurs font face à de nouveaux obstacles
: comme nous le savons déjà, la traduction littéraire implique de
maîtriser non seulement une langue étrangère dans sa totalité mais
également l’arrière-plan culturel lié à cette langue, ce qu’une machine
ne peut pas assurer dans le processus de traduction. Traduire signifie
comprendre un texte de départ et le restituer dans une langue
d’arrivée, établir un pont entre deux cultures, deux communautés
linguistiques, et faire des choix relevant en grande partie de notre
subjectivité, de notre représentation du monde. Les aspects
linguistiques et culturels de la traduction sont au centre de la
réflexion du traducteur.
Alors que la traduction automatique permet une traduction au mot à mot
en une fraction de seconde, Il apparaît intéressant de concilier la
rapidité de la traduction automatique à la traduction réfléchie,
intelligible que produit le traducteur : cette pratique récente est
appelée la post-édition. Le texte de départ est traité par un logiciel
de traduction automatique, avant d’être revu et corrigé par un
professionnel pour le rendre humainement compréhensible. Le but de
cette nouvelle activité est avant tout d’ordre économique : il faut
traduire plus, plus vite et moins cher. Cette pratique fait les grandes
institutions internationales telles que l’Union européenne, ainsi
qu’une multitude de maisons d’édition et d’agences de traduction, et se
développe en subissant de nombreuses évolutions.
La traduction est une pratique peu reconnue et pourtant essentielle
dans la diffusion d’un patrimoine culturel et la découverte de cultures
étrangères. Comme Internet, elle fut crée en premier lieu à des fins
militaires avant de se démocratiser et de devenir accessible au grand
public. Les nombreuses évolutions qu’elle a connues soulèvent des
questionnement socioculturels et modifient les activités
professionnelles liées aux échanges internationaux. Pour les éditeurs
en particuliers, cette pratique constitue un enjeu majeur.
Notes de lecture
Vidéos des cours d'amphi
Les vidéos du cours de Culture numérique sont filmés, montés et mis en
ligne par le CEMU (Centre d'enseignement multimédia de l'Université de
Caen). Ces documents sont sous licence ressources éducatives libres.
Ré-utilisation, découpage d'extraits, enrichissement des diapositives
sont les bienvenus.
Cours 2014
+ Introduction (partie 1 - partie 2)
+ Histoire de l'internet (partie 1 - partie 2)
+ Vidéo et télévision (partie 1 - partie 2)
+ Démocratie technique et puissances industrielles (partie 1 -
partie 2)
+ Néodocument : le document à la lumière du numérique (partie 1
- partie 2)
+ Sociabilité / Vie privée : l'identité et l'influence (partie 1
- partie 2)
+ Data : un monde calculable (partie 1 - partie 2)
+ Perspectives : vectorialisme ou communs ? (partie 1 - partie
2)
Cours 2012
Principes du travail de synthèse
Les travaux présentés ici sont issus du cours de Culture numérique de
l'Université de Caen, année 2014-2015. Il s'agit de notes de synthèses
préparés par les étudiant(e)s sur des sujets liés à l'enseignement.
Depuis 2009, un cours de Culture numérique est dispensé dans le cadre
de plusieurs enseignements au sein de l'Université de Caen
Basse-Normandie. Pour l'année universitaire 20014-2015, les étudiants
des formations suivantes ont suivi cet enseignement :
Master M1 - Document numérique en réseau -- ingénierie de
l'internet
Master M1 - MEEF - Option Documentation
Master M1 - Édition, Mémoire des Textes
Master M2 - Management du Sport
Master M2 - GREEN -
Licence professionnelle - ATC - Webmestre
Les synthèses proposées ici sont issues de travaux pratiques en groupe
de trois personnes. Un gros travail de lecture, de recherche de
documents image et vidéo a été réalisé. Nous espérons que les synthèses
aideront celles et ceux qui découvrent les sujets concernés.
Cours de Culture numérique -- 2013-2014 -- Université de Caen --
Enseignant : Hervé Le Crosnier -- Mentions légales -- Contact --
Licence Creative Commons CC-by-sa
connexion
Nouveau monde. La traduction automatique pour faciliter la communication à
l'étranger
Tout l’été on vous aide à mieux vivre le numérique du côté
pratique. Lundi, franceinfo vous fait découvrir plusieurs logiciels de
traduction automatique qui pourraient faciliter vos échanges à
l'étranger.
() ()
--'--
--'--
()
(BUTTON) (BUTTON)
____________________ () Copier
Copié dans le presse-papier !
avatar
franceinfoJérôme ColombainRadio France
Mis à jour le 06/08/2018 | 12:29
publié le 06/08/2018 | 12:29
Un avertissement en portugais traduit en langue anglaise, grâce à
l\'application Google Traduction. Un avertissement en portugais traduit
en langue anglaise, grâce à l'application Google Traduction. (GLENN
CHAPMAN / AFP)
Si vous passez peut-être vos vacances à l’étranger, il vous sera
peut-être difficile de communiquer dans une autre langue. Heureusement,
la technologie est là, notamment les applications de traduction
automatique. Il en existe de très performantes, comme celles que
franceinfo vous présente.
Les applications de traduction
L'application Google Traduction est gratuite et peut traduire 70
langues. Elle dispose également d'un mode hors-ligne vous permettant de
traduire des langues étrangères sans disposer de connexion à internet.
Assurez-vous toutefois de télécharger les langues qui vous intéressent
avant votre voyage. Google Traduction présenter également la
fonctionnalité de traduction par photo. Elle vous permet de traduire
des affiches, des menus de restaurant, des journaux... Elle est
disponible sur iOS et Android.
Microsoft Traducteur traduit 60 langues et est elle aussi gratuite et
peut être téléchargé pour les smartphones iOS et Android. Elle dispose
du mode photo, tout comme Google Traduction. Elle présente par ailleurs
une reconnaissance vocale et un mode conversation qui permet de
traduire la conversation de deux interlocuteurs qui se partagent un
écran. Il est également possible de connecter plusieurs mobiles.
Fonctionnelle même en étant hors-ligne, son seul point faible réside
dans ses chargements lents et son ergonomie, qui ne facilitent pas une
utilisation rapide.
Le récent Samsung Galaxy S9 intègre le système d'intelligence
artificielle Bixby Vision qui vous offre la possibilité de traduire un
texte en langue étrangère en le prenant en photo grâce à l'appareil
photo du téléphone.
Les oreillettes de traduction automatique
Si vous souhaitez réaliser votre rêve de traduction simultanée, que
voulez dialoguer avec une personne chinoise ou russe, les oreillettes
de traduction automatique peuvent être une alternative intéressante. En
effet, votre interlocuteur parle dans sa langue face au micro de votre
smartphone pendant que vous entendez la traduction en français de ce
qu'il vous dit, et le tout, dans vos oreillettes.
Lui aussi vous entendra dans sa langue, soit, à travers des
oreillettes, soit, à travers le haut-parleur du smartphone. Plusieurs
modèles d'oreillettes existent : les Mymanu (lien en anglais) conçus
par Click, les Weverly de Pilot, et celles de Google, les Pixels Buds.
Ces petites oreilles peuvent traduire une quarantaine de langues et
coûtent entre 160 et 270 dollars, mais ne sont pas disponibles en
France.
Ces oreillettes sont en réalité des oreillettes connectées à un
smartphone utilisant une application de traduction automatique et
présentent quelques limites. Les Pixels Buds sont réservés au
smartphone Google Pixel et plus généralement, une connexion Internet
est obligatoire. Aussi, la traduction est perfectible et présente
quelques lenteurs. Il s'agit donc d'un dispositif prometteur mais pas
encore aussi performant que l'on souhaiterait.
A lire aussi
Nouveau monde. Des applications et des objets connectés pour
prendre la route en toute sécurité
Nouveau monde. En vacances, la télé, où que vous soyez !
Nouveau monde. Comment écouter des podcasts sur son smartphone ?
Nouveau monde. Comment écouter de la musique en streaming ?
Nouveau monde. Comment votre smartphone peut vous aider à vous
déplacer ?
Comparaison des systèmes de traduction automatique Fin 2018
1. home
2. blog
3. Laboratoire d'essais HI-COM
4. Traduction
5. Comparaison des systèmes de traduc ...
Comparaison des systèmes de traduction automatique Fin 2018 Comparaison
des systèmes de traduction automatique Fin 2018
octobre 29, 2018 Alexandre QUINCÉ
Comparaison des systèmes de traduction automatique
Il y a quelques années, bon nombre de traductions effectuées par des
traducteurs automatiques laissaient à désirer. Depuis, les programmes
se sont améliorés. Les services de traduction automatique sont tous
basés sur des technologies similaires, fondées sur l’apprentissage
automatisé. Les groupes majeurs d’informatique se sont vite saisis de
l’opportunité naissante de pouvoir créer des logiciels ou des sites en
ligne permettant de traduire des textes avec plus ou moins
d’exactitude. Cependant, ce genre de traducteur automatique, qui puise
ses ressources dans des bases de données, ne capte parfois pas le sens
des phrases ou les expressions. C’est là le point faible de ces
machines. Nous allons aujourd’hui comparer les traducteurs
automatiques DeepL, Google Traduction, Yandex, Reverso et Baidu.
Pour faire nos tests, nous nous sommes servi de trois textes différents
: le poème « To make a prairie » de Emily Dickinson, un document
technique (extrait d’un manuel de la Nintendo Switch) et un article de
presse sur l’ouverture du pont le plus long en Chine. La traduction
s’est faite de l’anglais vers le français.
Sommaire:
Présentation des systèmes de traduction automatique
1. DeepL
2. Google Traduction
3. Yandex
4. Reverso
5. Baidu
6. Tableau bilan
Comparaison des systèmes de la traduction automatique
1. To make a prairie
2. Manuel de la Nintendo Switch
3. L’article de presse sur l’ouverture du pont le plus long en
Chine
Présentation des systèmes de traduction automatique
__________________________________________________________________
DeepL :
comparaison systèmes de traduction automatique deepl comparaison
systèmes de traduction automatique deepl
Le traducteur automatique DeepL puise ses traductions dans les bases de
données de linguee.com, un dictionnaire en ligne très utilisé. Les
langues disponibles pour les traductions sont français, anglais,
allemand, espagnol, italien, néerlandais et polonais. Les langues
traduites sont ainsi très limitées !
La traduction se fait automatiquement au fur à mesure que l’on écrit
dans la case prévue à cet effet. On peut cliquer sur un mot de la case
traduite pour voir sa signification et accéder à d’autres propositions.
Quand l’utiliser ?
C’est le petit chouchou du moment, c’est vrai qu’il a des tournures de
phrase souvent meilleures que Google Traduction mais il a un répertoire
de langues très limité. Pour la traduction de documents professionnels,
il vaut mieux se faire relire et corriger par un humain, il y a
toujours de fautes, surtout avec le féminin/ masculin pour les langues
latines.
__________________________________________________________________
Google Traduction :
systeme de traduction automatique google traduction systeme de
traduction automatique google traduction
Google Traduction est l’un des premiers traducteurs en ligne. Il
proposait au début de sa création des traductions plus
qu’approximatives, mais il s’est nettement amélioré au fil du temps. Il
fait maintenant partie des meilleurs traducteurs automatiques et a une
multitudes de langues compatible.
Comme DeepL, la traduction se fait au fur et à mesure que l’on écrit le
texte, sans que l’on ait besoin d’appuyer sur une touche ou sur
« traduire ». On peut également cliquer sur les mots pour obtenir
d’autres propositions. Un petit plus par rapport à DeepL, on peut
également écouter la traduction.
Quand l’utiliser ?
Tout comme Microsoft Traduction, que nous n’avons pas évoqué pour sa
ressemblance en terme d’efficacité avec Google, ces deux traducteurs
sont les passe-partout, ils ont un très grand nombre de langues à leur
actif et font plutôt bien leur travail. Attention cependant à éviter
les langues asiatiques et à bien faire relire votre document par un
natif si celui-ci est important.
Google Traduction – Quand l’utiliser (et quand ne pas l’utiliser !)
IFRAME:
https://www.hicom-asia.com/fr/2018/09/14/quand-utiliser-google-traducti
on-et-quand-ne-pas-lutiliser/embed/#?secret=oKww66jo7I
__________________________________________________________________
Yandex :
systeme de traduction automatique yandex systeme de traduction
automatique yandex
Yandex est un moteur de recherche et un portail russe. Son service de
traduction en ligne est basé sur le même principe que DeepL et Google
Traduction. On pourrait plutôt le comparer à celui de Google Traduction
qu’à celui de DeepL puisqu’il est également doté d’une fonction pour
écouter la traduction. Les langues de traduction possibles
sont nombreuses tout comme Google Traduction.
Quand l’utiliser ?
Yandex est à utiliser pour la traduction vers le Russe ou bien
l’inverse, c’est dans cette circonstance qu’il surpasse ses homologues.
__________________________________________________________________
Vous êtes intéressés par les principes et le fonctionnement de la
traduction automatique ? Lisez notre article sur son Histoire !
Histoire de la traduction automatique
IFRAME:
https://www.hicom-asia.com/fr/2018/08/01/histoire-de-la-traduction-auto
matique/embed/#?secret=G9nxoCToft
__________________________________________________________________
Reverso :
systeme de traduction automatique reverso systeme de traduction
automatique reverso
Reverso est une gamme de logiciels de traduction et un portail internet
qui proposent un ensemble d’outils linguistiques. Son service de
traducteur automatique propose les langues : Allemand, Anglais, Arabe,
Chinois, Espagnol, Français, Hébreu, Italien, Japonais, Néerlandais,
Portugais, Russe et Roumain. Le procédé de traduction est le même que
pour les trois traducteurs automatiques vus précédemment.
Quand l’utiliser ?
Reverso s’en sort moins bien que Google dans bien des tests pour un
nombre de langues inférieure mais d’un autre côté il propose un service
pour la correction les fautes d’orthographes.
__________________________________________________________________
Baidu :
systeme detraduction automatique baidu translate systeme detraduction
automatique baidu translate
Baidu est une entreprise internet chinoise et un moteur de recherche
très utilisé en Chine. Tout comme Google ou Yandex, qui sont également
des moteurs de recherches, Baidu a également développé un service de
traduction automatique. A contrario des autres traducteurs présentés
précédemment, pour celui-là il faut cliquer sur le bouton « traduire »
afin que la traduction s’opère.
Baidu a été tres clairement fait pour les chinois, les traduction du
chinois vers une autre langues ou l’inverse sont souvent meilleures que
celles de Google, par contre c’est lors de traduction entre des langues
autre que le chinois que Baidu se perd et devient moins efficace que
Google.
Quand l’utiliser ?
Pour traduire du chinois dans une autre langue ou l’inverse. Cependant
évitez les trop grande quantité de texte ou de l’utiliser pour vos
documents les plus importants. En effet, les caractères asiatiques sont
à double tranchant et une mauvaise traduction peut facilement vous
faire perdre la “face”.
__________________________________________________________________
Comparaison des systèmes de traduction automatique
« To make a prairie »
Suite à la comparaison de ces cinq traducteurs automatiques, on
remarque que les traductions du poème sont identiques pour DeepL et
Google Traduction. Ils ne s’en sont d’ailleurs pas si mal sortis et
traduisent l’essentiel du poème. Ce n’est cependant pas la même chose
pour Yandex, Reverso et Baidu ! Reverso a traduit « revery »
(« rêverie ») par « retrès » et Baidu n’a même pas réussi à le
traduire. La syntaxe de phrase est d’ailleurs le point faible de Baidu
puisque la traduction du premier vers qu’il a fourni n’est pas du tout
correcte. Yandex et Reverso ont aussi des soucis de traduction avec
l’avant dernier vers.
__________________________________________________________________
Manuel de la Nintendo Switch
Pour la traduction du manuel de la Nintendo Switch, il est étonnant de
voir que les systèmes de traduction automatique ont eu du fil à
retordre. DeepL et Google Traduction se démarquent un peu de leurs
concurrents puisqu’ils fournissent une meilleure traduction. Il reste
toutefois quelques coquilles telles que « pour tenir la console debout
afin qu’elle puisse être jouée », ce qui n’est pas français du tout ou
encore « afin qu’elle puisse être lue » pour Google Traduction. Yandex
ne s’en sort pas trop mal, mais a également du mal pour la même phrase
que DeepL et Google Traduction. Quant à Reverso, c’est une catastrophe.
Dès la première phrase, il traduit « case » (étui) en « cas »… Baidu
est celui qui s’en sort le moins bien, avec une syntaxe des phrases qui
laisse à désirer, rendant la traduction incompréhensible.
__________________________________________________________________
L’article de presse sur l’ouverture du pont le plus long en Chine
La traduction de l’article de presse s’avère être le point fort des
systèmes de traduction automatique. Les traductions ne sont pas
parfaites, mais les traducteurs automatiques arrivent à traduire
l’essentiel du texte. DeepL a cependant fait une maladresse de
traduction qu’un traducteur humain n’aurait pas fait. Il s’agit de la
traduction du « it » (désignant ici le pont) qui est difficile à
traduire puisqu’il n’existe pas de pronom similaire en français. DeepL
l’a traduit par « elle » alors que le sujet de la phrase est masculin.
Les traducteurs ont par ailleurs du mal à traduire les tournures de
phrase typiquement anglaises. Reverso et Baidu sont les traducteurs
avec le plus de fautes et leurs traductions sont beaucoup moins
compréhensibles.
__________________________________________________________________
Tableaux bilan:
DeepL Google traduction Yandex Reverso Baidu
Langues disponibles ★ ★★★★ ★★★★ ★★ ★★★★
Qualité de la traduction pour le poème ★★★★ ★★★★ ★★ ★★ ★
Manuel de la Nintendo Switch ★★★ ★★★ ★★ ★ ★
L’article de presse ★★★ ★★★★ ★★★ ★ ★
__________________________________________________________________
Pour conclure, nous pouvons donc dire que les traductions des systèmes
de traduction automatique DeepL, Google Traduction et Yandex sont
satisfaisantes, mais il faut quand même faire attention à certaines
fautes qu’ils peuvent commettre. Certaines phrases sont correctes, mais
on ressent la traduction très linéaire et plate, qui manque de
vitalité. L’utilisation des traducteurs Reverso et Baidu sont à éviter
car ils présentent énormément de fautes et de maladresses. Néanmoins,
il y a eu beaucoup de progrès et la qualité de ces systèmes de
traduction automatique ne va qu’en s’améliorant. Les traducteurs
automatiques restent néanmoins loin de la perfection des performances
humaines. L’homme reste la meilleure machine pour traduire, mais
surtout la plus fiable.
Pour cette raison, vous pouvez faire appel à nos services en nous
contactant si vous avez besoin d’une traduction.
Yann Le Cun: "La traduction automatique est une priorité de "
Yann Le Cun dirige le centre de recherche mondial en intelligence
artificielle de .
Yann Le Cun dirige le centre de recherche mondial en intelligence
artificielle de . - Brian Ach-GETTY IMAGES NORTH AMERICA-AFP
Pour le directeur de la recherche en intelligence artificielle de ,
le réseau social a, dans ses priorités, le perfectionnement de la traduction
automatique des contenus de ses membres. Deux milles paires de langues sont
déjà traduisibles dans les deux sens.
" ne pourrait pas fonctionner tel qu'il est aujourd'hui sans
l’intelligence artificielle" explique Yann Le Cun, de passage sur
l'antenne de BFM Business. Directeur du laboratoire de recherche en
intelligence artificielle du géant américain, dont une antenne a été
créée à Paris en 2015, ce chercheur français renommé dirige 110
chercheurs et ingénieurs qui développent les technologies du futur. "On
essaie de pousser l'état de l'art, de faire avancer la science et de
développer des technologies qui puissent être utilisées dans les
produits" explique-t-il.
"La traduction automatique des contenus publiés dans fait
appel à des technologies d'intelligence artificielle. Le but est de
traduire le post de quelqu'un dont vous ne comprenez pas la langue.
Pour cela, il faut que le système comprenne au moins superficiellement
le sens de la phrase et ensuite être capable de la transcrire dans une
autre langue. Il y actuellement deux mille paires de langues qui
peuvent être traduites dans les deux sens" souligne Yann Le Cun.
"La traduction ne marche pas encore parfaitement"
"La traduction automatique est prioritaire pour car sa mission
est de connecter les gens entre eux. Cela permet à des membres de
communiquer entre eux sans parler la même langue" argumente le
chercheur. Il concède que tout n'est pas abouti en la matière. "La
traduction automatique ne marche pas encore parfaitement. Elle est
utile mais on n'est pas encore capable de traduire un roman en entier
sans commettre de contresens" ajoute-t-il.
Les progrès dans l'intelligence artificielle sont issus du décollage de
méthodes dites "d'apprentissage profond" (deep learning) qui ont amené
des progrès énormes dans la qualité de la traduction automatique ou la
reconnaissance de la parole et d’images.
"Ce sont aussi ces techniques qui permettent de concevoir des systèmes
de vision destinés aux véhicules autonomes. Ces méthodes
d'apprentissage sont toutefois limitées. Elles ne donnent pas la clé
pour comprendre comment les humains peuvent apprendre aussi vite"
conclut ce grand spécialiste de l'intelligence artificielle.
Frédéric Bergé
0
A lire aussi
Intelligence artificielle: selon , l’industrie a raté un virage
A lire aussi
Intelligence artificielle: selon , l’industrie a raté un virage
#L'ÉCOLE DE DEMAIN » Flux L'ÉCOLE DE DEMAIN » Flux des commentaires
L'ÉCOLE DE DEMAIN » Le traducteur automatique, c’est pas magique… Flux
des commentaires Tweeter en CM1 Apprendre à l’école maternelle
alternate alternate L'ÉCOLE DE DEMAIN WordPress.com
L'ÉCOLE DE DEMAIN
Dessinons l'école pour la réussite de tous les élèves de la maternelle au
lycée – Le blog Education du SE-Unsa
Le traducteur automatique, c’est pas magique…
12 mai 2012 · par Stéphanie de Vanssay · dans Enseigner au quotidien,
Innover sur le terrain. ·
Il y a des phrases comme : «Monsieur, y a un correcteur automatique
pour l’anglais ?»
ou bien :
«Un traducteur automatique c’est un site où on tape en français et ça
parle en anglais.»
ou alors :
«Si le professeur demande d’écrire une autobiographie en anglais, on
utilise un site de traduction comme ça c’est plus simple.»
qui me font tweeter des phrases comme celle ci :
brufrench : «L’enfant se contente assez souvent d’explications qui
satisfont son goût de la poésie et sa paresse, au lieu d’aller au fond
des choses.» (G.Belbenoit)
Les élèves, c’est de bonne guerre, cherchent souvent la facilité. Les
professeurs, ces donneurs de leçons, ces despotes empêcheurs de
paresser en rond, ces complexificateurs compulsifs, sont là uniquement
pour rendre pénible une tâche qui paraissait assez simple au départ.
Les mathématiques ont les calculatrices, les lettres ont les
correcteurs orthographiques, l’enseignement des langues a le traducteur
automatique. Ce sont autant d’outils technologiques qui, pour les
experts, constituent un gain de temps et une aide, mais auxquels hélas,
les élèves d’aujourd’hui sont encore peu éduqués.
Pour le professeur de langues en France, le traducteur automatique est
le plus souvent un objet qui inspire des craintes, et que les plus
technophobes vouent aux gémonies. Le traducteur automatique serait un
danger, et les élèves ne devraient pas l’utiliser. A l’instar des
réseaux sociaux et du téléphone portable, il faudrait en restreindre
l’usage et faire comme si ces outils technologiques n’existaient pas.
Dans leurs pratiques, plusieurs collègues ont été amenés à supprimer
l’évaluation d’une éventuelle recherche personnelle et se trouvent de
plus en plus gênés par des devoirs à la maison qui ne sont que des
copiés-collés d’un traducteur automatique.
L’enjeu est important. Avec la multiplication des appareils numériques,
de l’omniprésence d’Internet dans la société actuelle, il n’est pas
pensable d’exclure des outils que les élèves se sont d’ores et déjà
appropriés. Dans cet article je vais m’efforcer de montrer qu’il est
possible d’amener les élèves à une utilisation intelligente, raisonnée
et pertinente du traducteur automatique.
I) Traducteur automatique et pensée magique : ÇA traduit
Utiliser le traducteur automatique pour un élève en difficulté devant
sa copie d’anglais, c’est une alternative séduisante. Un peu comme
Aladin qui n’a qu’à frotter sa lampe et faire un souhait pour devenir
riche et beau, l’élève à qui on a demandé d’écrire un paragraphe en
anglais et auprès duquel on a lourdement insisté pour qu’il n’écrive
pas d’abord en Français, pourra se contenter, le soir venu et pour en
finir une fois pour toutes, de gribouiller trois lignes en français
puis de les taper dans la case du premier site de traduction venu,
d’appuyer sur «traduire», de copier ou d’imprimer, puis, le sens du
devoir accompli, vous tendra fièrement son devoir le lendemain en vous
disant, «j’ai fait ça Monsieur, c’est bien ?»
Vous apprécierez qu’il ait passé de son précieux temps à imprimer une
page en pensant brièvement qu’il avait des devoirs, et vous consolerez
en vous disant qu’au pire, l’exercice que vous lui avez demandé lui
aura au moins servi à essayer de s’exprimer dans un français correct
pour pouvoir faire faire le travail de traduction à une machine dont on
n’attend pas, de sa part à elle, qu’elle soit autre chose que binaire.
Lors de mon année de stage, qui a eu lieu en 2006, l’usage des
traducteurs automatiques commençait déjà à se répandre parmi les
élèves, et plusieurs expériences ultérieures m’ont conduit à me méfier
de l’utilisation qu’en faisait mes élèves. Mais en tant que professeur
stagiaire, je n’avais pas encore bénéficié d’une formation sur «comment
gérer les élèves qui utilisent un traducteur automatique pour écrire un
paragraphe sur un sujet donné». Je n’ai pas mis zéro à l’élève qui
avait utilisé un traducteur pour lui apprendre qu’il ne fallait pas
faire ce qu’il avait fait ; il ne se rendait pas compte que la
traduction du paragraphe qu’il avait écrit en français n’était pas
compréhensible par un anglophone. Il avait simplement cru ou bien
espéré que l’outil de traduction aurait tenu sa promesse, qu’elle lui
aurait fourni une traduction qui serait sans failles car issue d’un
instrument infaillible, l’ordinateur.
La déception de l’élève fut grande lorsque je pris l’initiative de
faire retraduire en français par le traducteur ce qui avait été donné
comme étant de l’anglais dans la copie : j’ai demandé à l’élève de lire
le passage en français et de me dire s’il comprenait quelque chose au
texte qu’il lisait. Il me répondit que ce que je lui demandais de lire
n’avait aucun sens. Ce à quoi, je lui ai dit que c’était ce que le
traducteur avait dit qu’il avait écrit, puis, après lui avoir conseillé
d’utiliser le traducteur pour traduire des mots ou des bouts de phrase
plutôt que de copier-coller des textes entiers pour en obtenir une
traduction non satisfaisante, je lui indiquai qu’il valait mieux se
fier à ses propres connaissances pour faire ses devoirs.
Six ans plus tard, la donne a changé.
Tous les élèves ont accès à un ordinateur, et nombreux sont ceux qui
entendent confier leur apprentissage de l’anglais à cette merveilleuse
machine qui traduit pour eux ce qu’ils n’ont pas envie de faire
l’effort de comprendre. Ce qui est mis en jeu ici, dans
l’apprentissage, c’est la notion même de nécessité forte d’apprendre à
parler une langue étrangère pour communiquer avec autrui : Pourquoi
irai-je m’embêter à apprendre l’anglais alors qu’il me suffit de taper
ce que je veux dire à une personne pour le voir traduit un quart de
seconde plus tard sans me fatiguer.
Ainsi lorsque je pose la question: «A quoi peut servir un traducteur
automatique ?», très peu osent dire que ça peut servir à ne pas trop se
fouler pour faire ses devoirs, même si l’un d’entre eux a le courage
d’avouer tout net : «Si vous nous demandez d’écrire une autobiographie,
on utilise un site de traduction comme ça c’est plus simple».
C’est de cela qu’il s’agit pour une partie des élèves : se simplifier
la vie et préférer l’apparence du travail à une démarche de
construction de l’apprentissage, et c’est précisément pour cela qu’il
est nécessaire d’éduquer les élèves à ce type de technologie.
II) Ça traduit mal : Les obstacles à l’apprentissage
Pour expliquer à mes sixièmes quelles étaient les limites et les
risques qu’impliquent l’utilisation des traducteurs en classe de
langue, je leur ai proposé de traduire avec moi un extrait de la
biographie de la Reine Elizabeth dont voici la version de départ :
The Queen was born on April, 21 1926. When Elizabeth was 10 years old,
her father was crowned King of England and the family moved to
Buckingham Palace. The young princess did not go to school. She studied
at the Palace. She studied all the usual school subjects, plus the law,
art and music.Dans ce début de biographie, on apprend entre autres
choses que la Reine avait 10 ans lorsque son père a été couronné Roi
d’Angleterre, que la Famille Royale a déménagé à Buckingham Palace, et
qu’Elizabeth en plus des cours habituels avaient suivi un enseignement
du droit, de l’art et de la Musique.
Pour cette première phase, les élèves ont été invités à inférer le sens
des mots en fonction de leur place dans la phrase, ils ont été aidés
par les apports lexicaux que j’avais choisi de leur apporter pour
qu’ils puissent s’approprier le texte sans traduire mot à mot. Ainsi,
seul le mot «crown» a été donné aux élèves et il a été observé qu’il
s’agissait d’une forme passive et que le couronnement avait dans la
phrase un lien avec l’âge donné. Il fallait bien comprendre que le père
d’Elizabeth avait été couronné l’année des 10 ans de sa fille et non
pas que le père était Roi quand Elizabeth avait 10 ans ce qui
laisserait supposer qu’il avait pu être couronné bien avant les 10 ans
d’Elizabeth.
Même chose pour le terme «moved» qui peut être mal compris, il était
important que les élèves comprennent qu’il s’agissait d’un déménagement
organisé et volontaire et qui faisait suite au couronnement du père de
la future Reine. Enfin il a fallu faire inférer le sens du mot «law»,
qui est un faux-ami et qui désigne le Droit et non la Loi.
Lorsque le sens du texte et ses nuances ont été entrevus par l’ensemble
des élèves, j’ai proposé de passer le texte au traducteur afin que l’on
compare la version dont on avait convenu et la version traduite par le
traducteur automatique:
La Reine est née le 21 avril 1926. Quand Elizabeth avait 10 ans, son
père était le Roi couronné de l’Angleterre et la famille déplacée au
Palais de Buckingham. La jeune princesse n’est pas allée à l’école.
Elle a étudié au Palais. Elle a étudié tous les sujets scolaires
habituels, plus la loi, l’art et la musique.
La comparaison entre les deux versions du texte laisse clairement
apparaître que la traduction automatique comporte plusieurs
approximations et imprécisions en raison des subtilités syntaxiques et
sémantiques qui ont été évoquées plus haut. Ici, le père d’Elizabeth
«était le Roi couronné de l’Angleterre, quand Elizabeth avait dix ans»
la famille a été «déplacée» au palais de Buckingham. Le faux-ami «Law»
est mal traduit et devient donc «la loi».
Le problème majeur que rencontre un élève qui utilise un traducteur
automatique de façon récurrente vient du fait que la présence d’un
outil qui lui donne l’impression que le sens du texte est immédiatement
traduisible et parfaitement fidèle au sens du texte initial rend la
démarche d’apprentissage caduque.
Un élève qui est persuadé qu’il peut se contenter d’un sens global et
approximatif pour comprendre le message d’un texte ne sera jamais en
mesure de mettre en œuvre des stratégies de lecture efficaces ; il
prendra un mot pour un autre en se disant que puisque le traducteur
automatique le traduit comme ça, c’est que ça doit être vrai, et ne se
posera même pas la question du sens du texte original. Si le traducteur
dit que le père d’Elizabeth était «le roi couronné de l’Angleterre»,
pourquoi l’élève irait-il s’attarder sur le sens réel de la séquence
«when Elizabeth was 10, her father was crowned»? Tout ce que l’élève
perçoit, c’est que l’obstacle entre lui et le sens du texte a été
gommé «comme par magie», peu importe si ce sens est dévoyé, l’élève a
devant lui un message suffisamment convaincant qu’il a envie de prendre
pour argent comptant puisque cela lui épargne l’effort intellectuel de
retour sur le texte d’origine.
Ainsi si la traduction automatique permet de saisir le sujet général
d’un texte pour qui n’est pas regardant sur les liens de causalité et
autres éléments textuels qui permettent de déterminer précisément de
quoi il retourne, celle ci ne permet pas à un élève de se frotter à un
quelconque moment à une démarche de compréhension du texte ; la
traduction «immédiate» ayant supprimé de facto le besoin de déchiffrer,
d’inférer du sens et de construire une compréhension fine du texte de
départ.
Après avoir comparé avec les élèves la «vraie» et la «fausse»
traduction, j’ai demandé aux élèves de formuler quels étaient selon eux
les risques d’une utilisation abusive de la traduction automatique.
Voici ce qu’il en est sorti :
Le premier risque consiste à trop faire confiance au traducteur, à s’y
fier à tort et donc à risquer de se retrouver avec des informations
fausses, de mauvaises traductions, des défauts dans la traduction.
Le deuxième risque est celui de ne pas bien apprendre (ou de ne rien
apprendre du tout) parce qu’on se sert de l’outil de traduction pour
ne pas faire d’effort intellectuel.
Il est compréhensible que les élèves soient séduits par un outil qui
demande de moins en moins d’efforts pour arriver à des résultats
toujours plus proches de ce qui est attendu. Il n’est évidemment pas
souhaitable et même regrettable que certains élèves voient dans le
traducteur automatique un moyen de ne pas fournir d’efforts pour
s’approprier une langue.
C’est pourquoi il est essentiel d’accompagner les élèves dans leurs
usages de cet outil, que ce soit en leur faisant savoir que c’est un
outil qui est utile jusqu’à un certain point mais qu’il ne peut
absolument pas se substituer au travail sur la langue, ou en leur
montrant que c’est un outil valable à partir du moment où il est
utilisé à bon escient et que la traduction de phrases ou d’expression
ponctuelle n’a de raison d’être que si la ou les phrase(s) traduite(s)
s’insère(nt) dans un travail de compréhension fine des texte lus, dits,
ou écrits.
Article de Bruno Franceschi professeur d’anglais en collège
Grâce à un partenariat avec Bing Translator, le réseau social propose
désormais d'afficher la traduction des tweets. Mode d'emploi.
C'est officiel depuis cette nuit : propose maintenant de
traduire votre fil d'actu grâce à un partenariat avec Bing Translator
de Microsoft. Pour accéder à cette nouvelle fonctionnalité, rien de
plus simple.
Il suffit de se rendre dans les paramètres de son compte à la section «
Traduisez les Tweets » et de cocher la case
« Afficher la Traduction des Tweets ». Nous avons constaté à ce sujet,
que la case était activée par défaut sur tous les comptes.
Pas de panique, ne va pas vous imposer de lire directement la
traduction en français de tous les tweets en anglais que vous
consultez. Si vous souhaitez y accéder, il faut d'abord cliquez sur la
petite icône qui représente un Globe en haut à droite du texte.
Vous affichez ensuite la traduction de Bing Translator en-dessous du
texte original.
Cette fonctionnalité est disponible en 40 langues sous iOS, Android et
sur ordinateur.
précise cependant qu'il s'agit là d'une traduction automatique
forcément moins aboutie que celle pourrait réaliser un professionnel.
D'ailleurs, le réseau social annonce « offrir une traduction
automatique des Tweets entre plus de 40 paires de langues. » C'est à se
demander si lui-même n'a pas utilisé Bing Translator pour sa page
d'explications en français ...
A lire aussi :
teste la fonction "En votre absence" sous iOS 22/01/2015
Amélie Charnay
0
LES BONS PLANS 01net.com
Réductions Amazon Découvrez tous les codes promo Amazon
Réductions Webdistrib Découvrez tous les codes promo Webdistrib
Réductions Pixmania Découvrez tous les codes promo Pixmania
Réductions PriceMinister Découvrez tous les codes promo PriceMinister
Réductions Grosbill Découvrez tous les codes promo Grosbill
Voir tous les bons plans
Grégory Rozières Le HuffPost
TECHNO - Depuis quelques années, les indispensables à emmener en
vacances à l'étranger ont bien changé. La carte a été remplacée par
Google Map et le dictionnaire par une application de traduction. La
start-up Waverly Labs veut aller encore plus loin avec la traduction en
temps réel, rapporte Gizmag.
Le système, intitulé Pilot, est assez simple: deux oreillettes reliées
en bluetooth à un téléphone. L'une pour vous, l'autre pour votre
interlocuteur. Il suffit ensuite de parler, et théoriquement, l'autre
personne entend une version traduite à la volée. A terme, Waverly Labs
aimerait que l'oreillette capte le son environnant, mais pour
l'instant, les deux personnes se parlant ont besoin d'avoir une
oreillette. Pas très pratique quand vous voulez juste demander votre
chemin.
Pour draguer, cela peut mieux marcher. Le fondateur affirme justement
avoir eu l'idée de ces oreillettes après être tombé amoureux d'une
Française. Dans la vidéo ci-dessous, on comprend tout de suite
l'intérêt d'un tel outil (à condition qu'il n'y ait pas d'erreur de
traduction).
IFRAME: https://www.youtube.com/embed/ojzCYgli1t0
Pilot sera disponible en pré-commande le 25 mai à partir de 129
dollars. Le prix en magasin sera lui compris entre 249 et 299 dollars.
Les livraisons devraient commencer à l'automne prochain pour les
premiers acheteurs, mais pourraient prendre du temps. Pour le moment,
les oreillettes ne traduiront que les langues latines et romanes comme
l'anglais, le français, l'italien, l'espagnol. De plus, les créateurs
précisent qu'un fort accent peut perturber le service.
Ce que propose Pilot n'est pas très éloigné des applications de
traduction de Google ou Skype, qui traduisent les phrases entendues et
auxquelles on peut demander de dicter une phrase traduite. Ce que Pilot
apporterait, si la société tient ses promesses, c'est l'intégration de
toutes ces fonctionnalités en un seul objet qui permettrait d'oublier
la barrière de la langue.
traduction automatique
La société va dévoiler son application de traduction (qui fonctionne
hors-ligne) cet été. Ce sera l'occasion de voir si celle-ci est
véritablement efficace. Restera ensuite à savoir si l'oreillette en
elle-même est confortable et pratique.
IBM se lance dans la traduction automatique collaborative
Par le 04.09.2009 à 13h25, mis à jour le 04.09.2009 à 13h25
Les défauts actuels des logiciels de traduction automatique peuvent être
compensés par les utilisateurs eux-mêmes.
réagir
A la rédaction de l'hebdomadaire Courrier International: la machine n'a
pas (encore?) remplacé l'humain pour la traduction.
A la rédaction de l'hebdomadaire Courrier International: la machine n'a
pas (encore?) remplacé l'humain pour la traduction. Rillon/Neco/Sipa
Commenter
La participation et la collaboration des internautes ou des
utilisateurs est à la mode. Le succès de lʼencyclopédie en ligne
Wikipedia en témoigne. Mais des géants comme Google, Amazon, Apple ou
Procter&Gamble nʼhésitent pas à accueillir aussi les contributions
dʼacteurs extérieurs. Une nouvelle tendance baptisée "Wikinomics" par
deux auteurs, Don Tapscott et Anthony Williams, dans un livre éponyme
traduit en français en 2007.
Cʼest maintenant au tour du géant de lʼinformatique IBM de rejoindre le
mouvement dans le domaine de la traduction automatique. A la 12ème
conférence "Machine Translation" qui sʼest tenue à Ottawa (Canada) du
26 au 30 août dernier, IBM a présenté un système original, N-Fluent.
Comme beaucoup dʼautres, cette application permet de traduire une page
web visitée ou nʼimporte quel document. Intégré aux messageries
électroniques ou instantanées (celles dʼIBM seulement...), N-Fluent
permet de passer dʼune langue à lʼautre en un rien de temps. Des
smartphones peuvent aussi être équipés. Onze langues, dont le français,
sont disponibles mais seulement appariées à lʼanglais; le passage du
chinois à lʼespagnol par exemple nʼest pas possible directement.
Outre que le logiciel bénéficie de plus de vingt ans de recherches
reconnues dʼIBM sur le sujet, il est innovant dans la mesure où
lʼutilisateur peut interagir et corriger les propositions du programme.
Ainsi, à la manière de Wikipedia, la base de données sʼenrichit et
sʼaméliore. Jusquʼà un certain point en effet, la qualité dʼune
traduction augmente mécaniquement avec le nombre de mots disponibles.
Google avait déjà lancé au printemps une version provisoire dʼun tel
système (translator toolkit) mais beaucoup moins ambitieuse.
Lʼouverture a aussi ses limites. La version actuelle nʼa été amendée
que par des employés dʼIBM. Mais lʼentreprise étant mondiale, plusieurs
centaines de participants ont joué le rôle de correcteurs. Un
hispanisant a même comptabilisé plus de 110.000 mots à son actif. Le
meilleur francophone a modifié 32.000 mots (pour un total de 190.000
dans la base de données actuelle).
"Nous avons constaté un effet bien connu: environ 40% des contributions
proviennent de seulement 1% des contributeurs", résume Salim Roukos,
lʼun des responsables du projet, devant des journalistes français (dont
Sciences et Avenir) invités dans lʼun des centres de recherche dʼIBM
près de New York. Afin de récompenser les plus assidus, des aides
financières ont été accordées à des ONG choisies par les lauréats.
Cʼest aussi lʼaboutissement dʼune autre initiative collaborative et
ouverte dʼIBM: le projet est en effet né dʼune "session innovante" en
2006, sorte de remue-méninge géant, lors de laquelle tous les employés
pouvaient proposer des idées de développement pour leur entreprise.
IBM ne vise pour lʼinstant pas le marché du grand public mais celui des
entreprises. Ces dernières, en améliorant elles-mêmes lʼoutil, le
rendent plus efficace pour leurs affaires car il se trouve de facto
plus adapté à leur propre contexte commercial ou technique.
David Larousserie
Sciences-et-Avenir.com
04/09/09
Traduction automatique
Rêve ou fantasme ?
Par
Viviane Thivent
le 26 novembre 2015 - Mis à jour le 04 août 2016
Ni l’anglais ni l’esperanto ne se sont finalement imposés comme langues
universelles. Pour nous comprendre les uns les autres, il nous reste
une solution vieille comme le monde : la traduction. Mais attention, la
technologie s’en mêle et son objectif est très simple :
l’automatisation.
Le 23 juin 2015, dans un article mis en ligne sur la plate-forme
ArXiv.org, deux chercheurs de Google, Oriol Vinyals et Quoc V. Le,
présentaient un modèle de « conversation neural », comprendre par là un
logiciel capable de tchatter avec un humain et de lui parler de
philosophie et de moralité. Un type très développé d’intelligence
artificielle ? Pas vraiment. Pour répondre, ce logiciel ne réfléchit
pas. Il se contente de puiser dans la masse colossale des données
accumulées par Google. Les textes de nos sites web, mais aussi ceux de
nos conversations et de nos commentaires sont savamment triés,
catégorisés et pondérés par leur fréquence, de manière à faire émerger
la pensée dominante du web et à la régurgiter aux interlocuteurs.
L’effet final est bluffant. « Mais ce logiciel ne peut rien créer,
explique François Yvon, directeur du Laboratoire pour la mécanique et
les sciences de l’ingénieur (Limsi), à Orsay. Il ne peut produire aucun
contenu original. » Et pour cause : ce logiciel – un « chatbot » – est
moins le fruit des recherches en intelligence artificielle que celui
des travaux en traduction automatique des textes. Un champ de recherche
ancien, né sous l’impulsion du mathématicien Warren Weaver au lendemain
de la Seconde Guerre mondiale. A l’époque, il s’agissait de faciliter
l’espionnage de l’U par les Etats-Unis en automatisant les processus
de traduction du russe vers l’anglais. Le 7 janvier 1954, au gré d’une
collaboration entre IBM et l’université de Georgetown, à Washington,
des chercheurs sont parvenus à traduire de façon automatique quelque
60 phrases russes dans la langue de Shakespeare. Les possibilités
restaient cependant très limitées puisque, pour réaliser sa tâche,
l’ordinateur n’intégrait que six règles grammaticales et un lexique de
180 mots.
Traduction automatique, rêve ou fantasme ?
Des débuts timides, mais prometteurs
Les chercheurs, optimistes, estimaient de trois à cinq le nombre
d’années de recherches nécessaires pour aboutir à un traducteur
automatique performant. D’où un effort financier massif de la part du
gouvernement américain. Un soutien sur plus de dix ans, finalement, qui
cessera en 1966, après l’avis plutôt mitigé rendu par l’Alpac
(Automatic Language Processing Advisory Committee), un comité d’experts
chargé de juger de l’avancée des travaux financés et qui avait tout
bonnement décidé que cette recherche n’aboutirait jamais. « Pour les
scientifiques, le problème s’est révélé bien plus compliqué à résoudre
que prévu, et ce au moins à trois niveaux », souligne le directeur du
Limsi. D’abord, il fallait parvenir à décomposer chacune des langues,
puis à traduire correctement chaque mot. Par exemple, les mots take ou
car, en anglais, peuvent revêtir une multitude de sens différents selon
le contexte. Enfin, il fallait arriver à reconstituer la phrase dans la
nouvelle langue, alors que les structures des deux langues sont parfois
complètement différentes. « Pendant des décennies, des recherches ont
piétiné parce que les chercheurs tentaient de répondre à ces problèmes
complexes en utilisant des dictionnaires et des règles grammaticales »,
explique François Yvon. Il a fallu attendre la fin des années 80 pour
assister à un tournant. A l’époque, dans les laboratoires d’IBM, des
chercheurs ont réussi à créer un système de reconnaissance vocale
capable de transcrire le langage parlé en texte écrit, en utilisant une
approche statistique basée sur l’analyse de bases de données
linguistiques. Au lieu d’écrire très exactement ce que la machine
perçoit, le logiciel écrit ce qu’il a probablement entendu. Une nuance
qui, dans les années qui suivent, relance les recherches en traduction
automatique. L’idée, dès lors, est de traduire en utilisant non plus
des règles, mais des bases de données réunissant des textes traduits
dans les deux langues concernées. Dans les années 2000, Franz Joseph
Och convainc Google du bien-fondé de cette approche dite statistique.
« Beaucoup de phrases utilisées sur Internet sont des clichés, des
poncifs, qu’un logiciel peut reconnaître afin de prédire la suite, ce
qui aide pour la traduction », poursuit François Yvon. Au début, Google
a utilisé cette traduction simplement pour indexer les sites. Ce mode
de traduction produisait un charabia incompréhensible destiné seulement
aux machines. Pour imaginer proposer un service de traduction aux
humains, il fallait aller beaucoup plus loin. Ce que Google a fait.
« Google manipule des centaines de langues au quotidien et possède des
bases de données colossales », rappelle François Yvon. De quoi faire
progresser des logiciels qui, aujourd’hui, mêlent statistiques et
règles. Pour autant, tous les problèmes n’ont pas été résolus, loin de
là. D’abord, certaines expressions, rares ou peu fréquentes dans un
contexte écrit, sont presque toujours écartées. Par exemple,
l’expression « prendre à droite », très courante à l’oral dans le
contexte de la circulation routière, est incompréhensible pour un
traducteur. De plus, Google puise dans l’immense corpus de textes
anglais traduits en plusieurs langues comme principale base de données.
Résultat, pour traduire du français en italien, le moteur de recherche
passe d’abord par l’anglais comme langue pivot, puis de l’anglais à
l’italien, entraînant de nombreuses bizarreries, voire des contresens.
Une tâche ardue, même pour Google
« La langue n’est pas un ensemble continu, commente François Yvon. Il
ne s’agit pas d’un tout. Elle est fragmentée, composée d’une multitude
de registres, de niveaux de langue, entre lesquels nous passons
mentalement. » Le verbe juger n’aura ainsi pas le même sens dans un
contexte quotidien que dans le monde juridique. « Pour un logiciel, ce
découpage est difficile à percevoir », poursuit le directeur du Limsi.
De plus, pour utiliser les méthodes statistiques, il faut posséder un
grand nombre de textes très exactement traduits dans les langues
concernées. Or, la plupart de ces textes sont juridiques, techniques,
médicaux ou littéraires et ont recours à des registres très
particuliers. Cette matière est déjà difficile à trouver quand il
s’agit de langues usuelles (anglais, français, espagnol), mais elle
devient rare, voire inexistante, dès qu’on s’intéresse à des langues
minoritaires et qu’on essaie, par exemple, de passer du turc au coréen.
La tâche est ardue même pour Google. C’est pourquoi le géant du web
n’hésite pas à faire appel à la communauté des internautes pour étoffer
ces données avec Google Translate Community. En outre, un comité ISO
est en train de définir des règles universelles pour décrire toutes les
langues du monde. De quoi favoriser le traitement des données. Notons
que l’affaire se complique encore lorsqu’on a recours aux traducteurs
vocaux, censés effectuer une traduction simultanée, car les registres
de langue diffèrent entre l’écrit et l’oral. De plus, les paroles ne
sont pas toujours « audibles » par l’ordinateur. Pour autant, quelques
initiatives fonctionnent peu ou prou, comme Skype Translator qui, en
mars 2014, a traduit en temps réel les propos de deux internautes, l’un
hispanophone, l’autre anglophone. Certaines plates-formes Internet
comme Voxalead et Quaero sont, de plus, capables d’effectuer
l’indexation de vidéos en fonction de leur contenu audio. Si la
traduction automatique n’est pas pour demain, les progrès dans ce
domaine sont déjà bien réels.
5 questions à Hermann Ney
Directeur du département de science informatique de la RWTH Aachen
University (université technique de Rhénanie‑du‑Nord‑Westphalie).
Hermann Ney, Directeur du département de science informatique de la
RWTH Aachen University (université technique de
Rhénanie‑du‑Nord‑Westphalie).
The Good Life : Obtiendra-t-on un jour des logiciels de traduction
parfaits ?
Hermann Ney : Cela me semble difficile, en particulier pour des
traductions dans tous les domaines ou dans tous les genres. Même pour
l’homme, cette tâche est très complexe. Selon moi, ces logiciels auront
toujours des lacunes. Y compris dans les langues dominantes.
TGL : Quelles sont les stratégies actuelles pour améliorer les modèles
de traduction ?
H. N. : On peut, d’une part, améliorer les méthodes mathématiques, via
des études sur les statistiques, l’apprentissage ou les réseaux
neuronaux et, d’autre part, introduire de nouveaux modèles, pour gérer
certaines particularités, linguistiques notamment.
TGL : Vous est‑il arrivé, au cours de votre carrière, d’être surpris
par certains résultats ?
H. N. : J’ai été surpris de voir les méthodes statistiques devenir
dominantes si vite. En 1996, nous étions trois dans le monde à utiliser
cette approche. Dix ans plus tard, elle avait remplacé toutes les
autres.
TGL : Quel est l’impact économique potentiel de cette recherche ?
H. N. : L’impact direct (vente de logiciels ou de traducteurs) est
faible. Mais les conséquences indirectes pourraient être bien plus
importantes, notamment parce que ces logiciels permettraient à une
multitude d’entreprises d’avoir recours à une traduction jusque‑là trop
onéreuse et de conquérir de nouveaux marchés.
TGL : Google a-t-il des concurrents en matière de traduction ?
H. N. : Google a accès à toutes les données virtuelles du monde, mais
n’a inventé aucune méthode de traduction. Des équipes extérieures l’ont
fait. Des groupes de recherche dans le monde académique ou industriel
ont un niveau équivalent à celui de Google, comme IBM, BBN et Microsoft
ou les universités ISI Los Angeles ou Carnegie Mellon University (CMU)
Pittsburgh, aux Etats‑Unis. En Europe, il y a le Laboratoire
d’informatique pour la mécanique et les sciences de l’ingénieur
(Limsi), à Paris, ou la Fondazione Bruno Kessler (FBK), en Italie. Ces
équipes n’ont pas accès aux données de Google, mais elles sont
compétitives en termes de méthodologie et de recherche.
Traduction automatique: au-delà du phrase par phrase
03/04/2017
Image de la page
En travaillant phrase par phrase, les algorithmes de traduction
omettent une grande partie du contexte et font des erreurs. Un projet
soutenu par le FNS a développé de nouvelles techniques afin qu'ils
considèrent mieux l'ensemble du texte.
Contenu de la page
Des scientifiques financés par le Fonds national suisse (FNS) ont
ouvert une nouvelle voie pour améliorer les outils de traduction
automatique, comme le célèbre Google Translate, qui traite
quotidiennement quelque 100 milliards de mots. Les informaticiens et
linguistes ont été les premiers à montrer qu'il était possible
d'améliorer les systèmes de traduction en forçant l'intelligence
artificielle à dépasser le simple "phrase à phrase", et à croiser des
informations contenues ailleurs dans le texte, une démarche qui fait
aujourd'hui l'objet de travaux dans le monde entier. Les scientifiques
dévoilent leurs derniers résultats () le 3 avril 2017 lors d'une
conférence de l'Association for Computational Linguistics à Valence
(Espagne).
Traduire sans comprendre
"Les systèmes de traduction automatique ne comprennent pas vraiment le
sens des textes, explique Andrei Popescu-Belis, responsable du projet
ainsi que du Natural Language Processing Group à l'Institut de
recherche Idiap, situé à Martigny (VS). Ils opèrent un rendu d'une
langue vers une autre, en suivant des règles statistiques. Et surtout,
ils travaillent phrase par phrase. Or une phrase isolée ne comporte
souvent pas assez d'informations sur le contexte pour pouvoir être
traduite correctement. Les systèmes devraient pouvoir prendre en compte
des données situées ailleurs dans le texte."
Pour démontrer leur approche, les chercheurs se sont notamment penchés
sur la question des pronoms – des mots tels que "lui" ou "celle-ci",
qui se substituent à d'autres éléments du texte. Souvent, ces derniers
se trouvent hors de la phrase à traduire, d'où le nombre important
d'erreurs commises par les systèmes automatiques.
Andrei Popescu-Belis donne un exemple simple, mais qui trompe aisément
les systèmes les plus sophistiqués: "Ma tante a acheté une excellente
voiture. Elle n'est pas très jolie." En anglais, Google Translate la
traduit en "My aunt bought an excellent car. But she is not very
pretty." L'outil a traduit "elle" par "she". Comme ce pronom est
réservé aux personnes de genre féminin, le lecteur anglophone lira que
c'est "ma tante" qui "n'est pas très jolie".
Le piège de la statistique
Le système est induit en erreur, car il sait que le qualificatif "pas
très jolie" s'applique plus souvent à des personnes qu'à des objets. Si
on le substitue par "rouillée" ou "en panne", plus fréquemment
appliqués aux objets, le pronom aura plus de chances d'être
correctement traduit par "it".
Pour obtenir un résultat pertinent, le traducteur automatique aurait dû
considérer les informations contenues dans la première phrase. C'est
dans les grandes lignes ce que fait le système mis au point par les
chercheurs de l'Idiap en collaboration avec les Départements de
linguistique des universités de Genève et d'Utrecht (Pays-Bas) ainsi
que l'Institut de linguistique computationnelle de l'Université de
Zurich.
Les chercheurs utilisent essentiellement des outils d'apprentissage
automatique (ou "machine learning"). A chaque essai, ils introduisent
ou retirent des centaines de paramètres, que les algorithmes ajustent,
jusqu'à constater une amélioration. "Dans les grandes lignes, nous
indiquons au système le nombre de phrases précédentes qu'il doit
analyser, comment il doit les analyser, puis nous procédons à des tests
en conditions réelles."
Google recrute au sein du projet
Les résultats sont encourageants, selon Andrei Popescu-Belis. Dans des
couples de langues comme français-anglais ou espagnol-anglais, les
pronoms induisent en erreur les traducteurs automatiques dans environ
la moitié des cas. "En forçant le système à considérer des informations
externes à la phrase, nous sommes parvenus à réduire le taux d'erreur à
30%", note le chercheur.
L'enjeu de ces travaux va bien au-delà de la seule question des
pronoms: la cohérence des temps verbaux, le choix de la terminologie ou
encore les niveaux de politesse constituent autant de problématiques
qui dépendent largement du texte dans son ensemble, plutôt que d'une
phrase prise isolément.
Les techniques développées par Andrei Popescu-Belis et ses collègues ne
sont pas encore mûres pour des outils grand public, mais elles
intéressent les acteurs du domaine. "Ce sont nos travaux qui ont fait
connaître la nécessité de dépasser la traduction automatique phrase à
phrase. Mais surtout, trois jeunes chercheurs impliqués dans le projet
travaillent maintenant dans ce domaine chez Google Zurich. Cela montre
bien l'intérêt suscité par notre approche."
Traduction automatique : faire tomber les barrières de la langue
Plus besoin de traducteur diplômé à côté de soi, un simple smartphone suffit
pour se débrouiller face à des interlocuteurs étrangers ou devant un texte
sybillin. Même si l'exactitude n'est pas toujours au rendez-vous, la
traduction automatique révolutionne la façon de communiquer.
Par La Rédaction -
9 janvier 2015
Avec ses sites internet – Babelfish, Linguee, Reverso parmi les plus
connus, en plus de Google Translate ou Bing Translator – et ses
applications mobiles à gogo, la traduction automatique est aujourd’hui
quasiment un standard technologique. Mais au final, une seule question
intéresse les utilisateurs : peut-on faire entièrement confiance à ces
solutions ? De l’avis général, l’exactitude de la traduction
automatique atteint les 75 à 80 %. Ce qui suffit souvent pour saisir le
sens général d’un texte, mais n’est guère recommandé pour la traduction
des termes d’un contrat portant sur des milliards de dollars. Il suffit
d’ailleurs de prendre une phrase au hasard pour avoir une idée des
approximations : “longtemps, je me suis couché de bonne heure”, célèbre
et simple en apparence. Pour Reverso, cela donne “for a long time I am
early lying” et “long time I went to bed early” pour Google Translate.
Faut-il les en blâmer pour autant ? Depuis plus d’un siècle, les
traducteurs de Proust ne se sont pas encore accordés sur ce qu’il
convenait d’écrire… Est-ce “went to bed early”, “used to go to bed
early” ou “would go to bed early” ?
La chanteuse Malinda Kathleen Reese s’est d’ailleurs amusée de ces
errances à travers sa série de vidéos à regarder sur YouTube “Google
Translate Sings”. À l’aide du site de Google, l’artiste a traduit de
langue en langue les textes de chansons connues telles Bohemian
Rhapsody de Queen ou Let it Go, la rengaine du dernier Disney la Reine
des Neiges. De l’anglais au chinois, puis du chinois au français, puis
du français au tamoul et ainsi de suite pour revenir en anglais à la
fin, le tout mis en musique. De fil en aiguille, les erreurs
s’accumulent. Au final, le fou rire est garanti !
Techno
Les chercheurs ont commencé à plancher sur la traduction automatique à
partir des années 50, en s’appuyant notamment sur les expériences
faites pendant la Seconde Guerre mondiale pour casser les codes
ennemis. Aujourd’hui, les solutions fourmillent, entre les sites
internet et les applications mobiles utiles aux voyageurs.
Vous aimez cet article ? Recevez notre newsletter
____________________ ____________________ ____________________
____________________ S'inscrire
Leave this field empty if you're human: ____________________
Cet humour potache met en lumière un fait : la traduction automatique
n’en est encore qu’à ses balbutiements. D’ailleurs, Google ne se voile
pas la face quant à l’absolue pertinence de sa solution. D’abord parce
que, pour trouver des segments de phrases, ses systèmes vont fouiller
au sein d’un corpus de textes qui, certes, ont le mérite d’exister en
plusieurs langues, mais sont souvent assez rébarbatifs à l’image des
documents offciels de l’Union européenne. “Nos systèmes de traduction
ont dans l’ensemble été meilleurs pour donner du sens aux documents
officiels ou business que pour aider les gens dans leur communication
de tous les jours”, constatait en début d’année Aaron Babst, alors
directeur du programme Google Translate avant de passer en septembre
chez .
Mais, c’est bien connu, il n’est pas nécessaire d’espérer pour
entreprendre, ni de réussir pour persévérer. Aujourd’hui, les voyageurs
d’affaires ont à leur disposition une multitude d’appli mobiles qui
s’imposent comme autant de dictionnaires à embarquer au creux de la
poche. Alors bien sûr, le résultat n’est pas toujours optimal, mais
c’est tout de même bien plus pratique que d’avoir à se balader avec les
collections réunies des Larousse, Harraps et Robert & Collins en
permanence sous le bras…
Parmi les plus utilisées, iTranslate se vante d’être la plus populaire
avec 55 millions de téléchargements depuis ses débuts, tandis que
Google Translate se targue de traduire pas loin de 100 milliards de
mots par jour. Un chiffre faramineux, surtout si on le compare aux
capacités d’un traducteur professionnel qui, au quotidien, peine à
atteindre les 4 000 mots.
Conversations sans frontières
Conversations sans frontières
Après l’écrit, la traduction automatique s’attaque désormais aux
échanges vocaux. Lancé cette année, Skype Translator réussit un vrai
tour de force, celui de “résoudre le décalage entre la façon dont les
gens parlent et écrivent. C’est un des principaux sujets sur lesquels
mes équipes ont travaillé l’an dernier”, explique Arul Menezes, en
charge chez Microsoft de la recherche autour de la traduction
automatique sur le blog research.microsoft.com.
Grâce aux nouvelles technologies, les barrières de la langue tremblent
et chancellent. Porte-voix d’un monde globalisé, les grands réseaux
sociaux comme ou se sont eux aussi lancés dans la
traduction instantanée des messages échangés. En parallèle, des
applications innovantes sont apparues pour secourir les voyageurs “lost
in translation” comme WordLens. Sans besoin même de connexion internet,
celle-ci permet, simplement en pointant la caméra d’un smartphone sur
un menu ou vers un panneau d’indication d’en recevoir immédiatement la
traduction dans sa langue. Il n’est d’ailleurs pas étonnant que Google
ait fait l’an dernier l’acquisition du développeur de cette
application, Quest Visual, pour enrichir son offre de traduction
mobile.
Mieux, alors que les solutions se sont longtemps concentrées sur
l’écrit, la traduction orale commence depuis peu à faire son
apparition. Ainsi, iTranslate a enrichi son offre d’une déclinaison
Voice qui permet à deux personnes ayant installé l’application sur leur
smartphone de converser chacun dans leur langue, l’application se
chargeant de faire l’intermédiaire. De son côté, Skype a lancé en fin
d’année dernière le plug-in Translator qui permet de traduire les
échanges simultanément. “La traduction vocale nous a paru une évolution
naturelle du travail que nous avons entrepris sur la traduction
écrite”, explique Chris Wendt, directeur de ce programme de traduction
automatique. Satya Nadella, le PDG de Microsoft, la maison mère de
Skype, en est convaincu, un outil comme celui-là pourrait “changer la
vie des gens et des entreprises”.
Panorama des applications de traduction les plus pratiques
Application
Google Translate
La plus connue avec 90 langues, dont 38 avec reconnaissance vocale, et
une fonction caméra (gratuit).
Application
Waygo
Une appli pour comprendre les inscriptions en caractères chinois,
japonais et coréens (gratuit).
Application
Istone Travel
Offre la traduction de 300 expressions familières dans une douzaine de
langues (gratuit).
Application Triplingo
2000 phrases traduites en 13 langues, Intègrant les expressions
familières, voire argotiques (gratuit.
Application Ihandy Translator
Un interface très “user friendly” et 52 langues traduites. Gratuit,
avec une version pro à 2,99 $.
Application Itranslate
L’autre leader de la traduction automatique avec ses 90 langues et son
option voix (gratuit).
Application Itranslate Voice
La traduction simultanée par smartphone interposé en 42 langues. (6,99
$).
Application SMS Translator
Permet de traduire des échanges de SMS en 16 langues (gratuit).
Application Sayhi Translate
Propose 100 langues disponibles avec, aussi, la traduction de dialectes
locaux. (4,99 $).
Application Reverso
Traduction instantanée en 10 langues avec des exemples d’utilisation en
contexte (gratuit).
Les nouvelles technologies vont-elles soustraire les hommes de cette
punition divine, la confusion des langues, vieille comme la Genèse ? Le
mythe est archi connu. À trop vouloir s’élever d’eux-mêmes vers le ciel
en construisant la tour de Babel, Dieu flanqua à terre cette oeuvre
autant humaine qu’orgueilleuse et les condamna à traîner leur peine au
milieu de paroles inconnues. Un mythe qui a nourri bien des fantasmes :
de la mystique Hildegarde de Bingen au Moyen-Age et sa lingua ignota
jusqu’au docteur Zamenhof et son espéranto à la fin du XIXe siècle,
philosophes et humanistes se sont creusés la tête pour construire des
langues artificielles qui pourraient être comprises de tous. On compte
ainsi près de 900 initiatives rarement couronnées de succès, sinon
d’estime.
L’approche technologique du problème est, elle, totalement inverse.
Puisque la diversité linguistique est un fait, faisons contre mauvaise
fortune bon coeur et donnons aux gens les moyens de communiquer entre
eux par-delà leur différence. De manière schématique, la traduction
automatique s’appuie sur des modèles statistiques du langage, les
machines allant grâce à ceux-ci fouiller dans les pages pour trouver
des séquences de phrase dont elles pourraient trouver l’équivalent dans
une autre langue.
Techno
Maudites erreurs de traduction… Les solutions automatisées n’en ont pas
le monopole. L’histoire fourmille d’exemples, drolatiques pour certains
comme lors du voyage de Jimmy Carter en Pologne où son traducteur fit
part de son “désir charnel pour les Polonais” au lieu de “son envie de
mieux comprendre leurs désirs”… Plus tragique, la réponse du premier
ministre japonais, “mokusatsu”, à l’ultimatum des Alliés. Pour
certains, ce petit mot ambigu voulait dire qu’il s’abstenait de tout
commentaire. Mais même les agences de presse niponnes l’ont interprété
comme une fin de non-recevoir. Dix jours plus tard, c’était Hiroshima.
De cette aventure technologique de longue haleine qui a débuté dans les
années 50, menée par IBM et Systran notamment, on commence réellement à
en récolter les fruits. Pour illustrer la difficulté de la tâche, les
équipes de recherche de Microsoft travaillent sur le sujet depuis plus
d’une décennie, avec comme premier résultat le lancement de Bing
Translator puis, plus récemment, de Skype Translator. Avec la
traduction vocale, les chercheurs s’attaquent d’ailleurs à une autre
difficulté. Car si, pour la langue écrite, les systèmes peuvent
s’appuyer sur des textes, traduire le langage parlé est bien plus
difficile. Il faut notamment tenir compte de l’intonation, des pauses
qui rendent difficile la compréhension par une machine d’où commencent
et où s’arrêtent les phrases. Sans parler des formulations propres à
l’oral ! Du coup, pour enrichir le vocabulaire des réseaux de neurones
artificiels, les chercheurs se sont notamment appuyés sur les messages
publiés sur , plus proches du langage de tous les jours.
Pour aller plus loin, Google fait aujourd’hui appel à… l’humain. Le
géant technologique a récemment lancé un programme collaboratif pour
améliorer l’algorithme de son service Translate, les utilisateurs étant
invités er de meilleures traductions pour des phrases usuelles.
Au final, les utilisateurs portent en eux une partie de la résolution
du problème, car, à l’heure du big data, plus les solutions seront
utilisées, plus les outils affineront leurs traductions.
Techno
Conversations sans frontières
Application
Application
Application
Application
Application
Application
Application
Application
Application
Application
Techno
A lire aussi :
Traduction automatique : Linguee passe en mode DeepL
Traduction : DeepL se décline en version Pro
À lire dans le dossier Traduction automatique : faire tomber les barrières de
la langue
Traduction automatique : faire tomber les barrières de la langue
Témoignage : Ana Escobedo-Boulard, les langues du monde
Technologie en bref
7
J’ai été récemment interrogé par le journal L’informaticien au sujet
des différentes solutions de traduction qui s’offrent aux entreprises
et, en particulier, des questions de traduction automatique (voir
l’article). Au cours de nos entretiens, Emilien Ercolani, le
journaliste, m’a demandé de faire évaluer la traduction d’une phrase
tirée d’un de ses précédents articles, et qu’il avait soumise à
plusieurs moteurs de traduction automatique (Google, Bing, Power
Translator, Systran et Babylon). Dans un premier temps, nous avons
demandé à une traductrice (Andrea) de traduire la phrase source sans
mentionner quoi que ce soit d’autre : nous ne lui avons donc pas fourni
les traductions automatiques. C’est la cible 1. Ensuite nous avons
demandé à trois autres traducteurs (Angie, Mark et Marie) de commenter
les traductions automatiques. Nous ne leur avons pas dit qu’il
s’agissait de traductions automatiques, mais que nous voulions choisir
entre plusieurs formulations. Mark a reconnu de la traduction
automatique, les autres n’ont pas commenté (ils ont pu reconnaître de
la traduction automatique sans nous en parler). Enfin, nous avons
demandé à Mark, qui avait corrigé auparavant les traductions
automatiques, de faire une proposition de traduction : c’est la cible 2
(voir les résultats complets de notre test).
Les résultats sont éloquents : il suffit de comparer l’une des deux
phrases cibles rédigées par des traducteurs humains à n’importe
laquelle des phrases cibles construites par un moteur. Mais, pour
poursuivre l’analyse, je me suis amusé à compter les erreurs relevées
par les traducteurs humains dans les formulations automatiques. Pour
chaque erreur, je comptais deux points, et un point pour les remarques
stylistiques (du type « l’utilisation de indeed est un peu démodée » :
ce n’est pas une erreur à proprement parler, mais une remarque
stylistique). Puis, j’ai divisé le nombre de mots de la phrase source
par le nombre de points obtenus, ce qui m’a donné un pourcentage : par
exemple, la formulation de Google comporte 5 erreurs et 1 faute de
style, ce qui me donne un total de 11 points. Ce total, divisé par 45
(le nombre de mots de la phrase source), donne un pourcentage d’erreurs
de 24%. Si je retire 24% de 100%, j’obtiens un score qualité de 76%.
Moteur
Erreurs
Fautes de style
Points
Score Qualité
Google
5
1
11
76%
Bing
5
1
11
76%
Systran
6
0
12
74%
Reverso
7
0
14
69%
Power Translator
8
0
16
65%
Babylon
8
1
17
63%
Ce score de 76%, que Google partage avec Bing, est très mauvais ! Pour
donner une idée de ce que représente un tel pourcentage, cela revient à
dire que dans un texte de 5 lignes (50 mots), un lecteur serait arrêté
par une erreur 5 fois par ligne (25 erreurs) ! Personne n’accepterait
ça dans un journal. A titre de comparaison, les scores qualités
considérés comme acceptables dans le monde de la traduction
professionnelle sont compris entre 95% et 100%. Microsoft, par exemple,
refuse tout contrôle qualité dont le score est inférieur à 99%. Comme
on peut le voir ici, sur une seule phrase, on est loin du compte avec
la traduction automatique !
Il est d’ailleurs très probable que les résultats seraient différents
si la phrase source avait été modifiée avant d’être soumise aux
moteurs. C’est que soulignait déjà l’expérience dont je rendais compte
dans Le site de traduction de Microsoft comparé à Google et PROMT.
Dans tous les cas, et même si elle est limitée à une seule phrase,
cette petite expérience-ci confirme un point très important : la
traduction automatique ne permet pas de délivrer des textes directement
publiables. Et, les indéniables améliorations des moteurs renforcent
encore le besoin de bien connaître la langue cible pour évaluer
correctement le travail réalisé : peu de Français savent avec certitude
quand on peut se passer de l’article « the » dans une phrase, pour
reprendre une des erreurs qui revient souvent dans l’expérience. En
fait, il s’agit d’un excellent outil de traduction… pour traducteurs !
Car il va beaucoup plus vite de relire (on dit « post-éditer » dans le
jargon de la TA) que de traduire, et un traducteur professionnel peut
multiplier par cinq à dix sa productivité quotidienne en utilisant des
moteurs de traduction. Mais c’est une illusion de croire que l’on peut
diffuser des textes traduits par un moteur sans post-édition.
Ces travaux de post-édition sont d’ailleurs proposés par plusieurs
agences de traduction. Outre celles qui travaillent pour de très
grandes entreprises du secteur informatique (ce n’est un secret pour
personne que Microsoft ou Symantec exploitent énormément la traduction
automatique pour localiser leurs produits), elles seraient de plus en
plus nombreuses er ce services aux clients moins naturellement
portés sur la haute technologie. D’après un rapport de Common Sense
Advisory, (The Market for MT Post-Editing, 22 novembre 2010, Donald
DePalma et Vijayalaxmi Hegde), les agences qui proposent un service de
post-édition sont encore peu nombreuses, et ce service ne représente
pas une grosse part de leur chiffre d’affaires (moins de 10% du CA pour
73% des agences interrogées), mais c’est celui qui croît le plus vite
pour une vingtaine d’agences.
Publié dans Actualité de la traduction, Revue de presse, Traduction
automatique | 7 Réponses
Professionnels de la traduction : conférences d’automne aux Etats-Unis
Publié le 24 août 2010 par Guillaume
1
L’association TAUS organise une conférence dédiée à l’usage des outils
de traduction automatique dans le monde de la traduction
professionnelle à l’hôtel Governor de Portland, dans l’Oregon, du 3 au
6 octobre 2010. Les nombreuses communications prévues présenteront
diverses plates-formes de traduction, dont celles de Lionbridge
(GeoWorkz), de Lingotek ou de WeLocalize, qui s’appuie sur GlobalSight,
une solution Open Source. Une présentation fera le point sur l’état
actuel de la recherche en matière de traduction automatique. Puis, la
question de la relation entre les divers aspects de la traduction
professionnelle et la traduction automatique sera abordée de façon
approfondie au cours de nombreuses interventions menées par des
représentants de Microsoft, Systran, Asia Online, ProMT, Intel, Applied
Language Solutions, SDL ou encore Lexcelera. De nombreux témoignages
présenteront des études de cas, et une série d’ateliers sont prévus
avant de début de la conférence elle-même.
Pour finir en beauté, TAUS propose à ceux qui s’enregistrent de
réserver leur place dans le bus qui les amènera à la conférence
Localization World qui se tient à Seattle, dans l’état de Washington,
du 6 au 8 octobre. Les communications seront là encore particulièrement
nombreuses, puisque 5 parcours différents sont prévus, ce qui permet
aux organisateurs de planifier près d’une quarantaine d’interventions
en deux jours ! On y parlera de localisation de jeux vidéos, de la
stratégie de globalisation du Web dans les années à venir, de ,
de qualité, de Google Translate… Impossible de s’y rendre sans
consulter le programme détaillé avant de s’inscrire.
Publié dans Actualité de la traduction, Marché de la traduction,
Traduction automatique | Une réponse
Les entreprises attendent la traduction automatique de qualité humaine
Publié le 13 avril 2010 par Guillaume
3
La traduction automatique n’en finit pas de faire la Une de
l’actualité. C’est d’abord SDL qui publie pour la deuxième année
consécutive son étude sur les tendances en matière de traduction au
sein des grandes entreprises.
Les grandes entreprises adoptent la traduction automatique
Résumant 228 entretiens avec des représentants de Wolter Kluwer,
Hewlett-Packard, Kellog’s, Garmin ou Nokia, principalement aux
Etats-Unis et en Europe, l’étude mesure l’intérêt pour la traduction
automatique au sein des grands groupes. On y découvre par exemple que
17% des entreprises interrogées utilisent déjà la traduction
automatique tandis que 11% prévoient de le faire à brève échéance,
tandis que 30% n’y font pas appel pour des raisons de qualité
insuffisante. Les principaux utilisateurs se recrutent dans le secteur
informatique, alors que les entreprises des médias sont les plus
méfiantes en matière de qualité.
La question de la qualité est très intéressante, car lorsqu’on
interroge les sondés sur leurs attentes en la matière, 60% d’entre eux
répondent qu’ils souhaitent une qualité identique à celle délivrée par
des humains. Et quand on leur demande s’ils ont envisagé post-éditer
des traductions générées automatiquement, ils sont 35% à y avoir
réfléchi pour finalement abandonner l’idée, alors que 30% exploitent ou
mettent en place une solution de post-édition. Les langues
majoritairement concernées par la traduction automatique sont les
quatre langues majeures d’Europe (français, italien, allemand et
espagnol). Il semble que les grandes entreprises envisagent de plus en
plus sérieusement de mettre en place des solutions de traduction
automatique post-éditée, en ayant pour moteur le gain de temps et
d’argent, au moins dans les grandes langues.
Systran analyse le corpus de l’entreprise
Au même moment, Systran complète sa solution de traduction automatique
avec Systran Traning Server, qui comporte Training Manager et Corpus
Manager. Ces deux logiciels encadrent Systran Enterprise Server, et lui
permettent de s’entraîner sur des corpus thématiques de textes
(typiquement, des mémoires de traduciton). Le moteur de Systran est en
mesure d’analyser les acquis linguistiques qu’il parcourt et d’en
déduire les règles qui ont présidé à la construction des phrases cibles
par comparaison entre les traductions automatiques et les traductions
appartenant au corpus. Il crée alors un modèle ad-hoc qu’il appliquera
lors de la traduction des prochains textes (pour plus détails, voir
ici). Dans le même temps, son extracteur terminologique analyse les
phrases pour en sortir les termes récurrents et construire
automatiquement un dictionnaire (éditable à souhait).
Évidemment, la qualité de sortie du moteur de traduction est bien
meilleure, puisque le système associe l’analyse syntaxique
traditionnelle, personnalisée par les dictionnaires de l’entreprise
cliente, avec l’analyse statistique, personnalisée par les modèles
construits sur la base des corpus de l’entreprise. En fin de processus,
le texte se présente sous la forme d’un tableau entièrement modifiable,
et le produit de l’opération de post-édition est enregistré dans une
mémoire de traduction qui peut être ajoutée au corpus à l’aide de
Corpus Manager. On entre alors, théoriquement, dans une boucle
d’amélioration continue. Et c’est sans doute la raison pour laquelles
plusieurs agences de traduction ont déjà fait l’acquisition de la
solution complète. Deux obstacles, toutefois, à une généralisation
d’une solution aussi aboutie : le prix (qui se compte en dizaines de
milliers d’euros), et la puissance nécessaire aux PC chargés d’exécuter
les moteurs d’analyse (16 Go de mémoire vive conseillés…). Il ne serait
d’ailleurs pas surprenant de voir apparaître d’ici quelques mois une
version online de type SaaS, accessible par abonnement à un prix
forfaitaire, ou… calculé au mot.
Des agences de traduction… automatique ?
Les agences de traduction constituent désormais une cible de choix pour
la distribution des solutions automatisées de traduction. On ne
s’étonnera donc pas que Promt, le grand rival de Systran, lance PROMT
Language Service Provider 9.0, destiné aux agences. Intégrable aux
outils à mémoire de traduction, PROMT LSP 9.0 partage en réseau les
dictionnaires personnalisés et les mémoires de traduction, prend en
charge les formats de fichiers standards de la profession (XLIFF, TBX,
TMX…), comporte un système de contrôle qualité statistique de type QA,
et dispose d’API qui permettent de faire appel à ses fonctionnalités à
partir d’autres programmes développés sur mesure. Une telle solution
permet d’envisager de systématiser une approche de la traduction qui
associe les mémoires, la traduction automatisée, et la traduction
humaine.
Les agences qui traduisent en interne ont de quoi s’intéresser à une
telle approche, car elle permet d’associer qualité élevée et prix bas.
Il y a même de quoi envisager de ré-internaliser la traduction pour
certaines langues. Pourquoi ? Parce qu’on passe d’une productivité de
2000 mots relus par jour à une capacité de 1000 mots relus par heure !
Pour une qualité comparable, puisque c’est bien le traducteur humain,
formé et expérimenté, qui contrôle et finalise le travail. Evidemment,
la compétence mise en oeuvre par le traducteur n’est pas la même
lorsqu’il traduit lui-même ou lorsqu’il prépare le texte source,
personnalise le dictionnaire, contrôle la traduction automatique et
l’édite. Dans le second cas, il concentre son apport sur la pertinence
de sa compréhension du sens d’origine, le mécanisme linguistique et la
valeur ajoutée de la formulation finale. C’est le coeur de métier du
traducteur, ce que la machine ne peut pas modéliser.
Toujours plus de textes à traduire… pour les humains !
C’est bien pour cela que le blog Global Watchtower prédit que la
généralisation des outils de traduction automatique, au premier rang
desquels Google Translate, va accroître, et non réduire, la demande en
matière de traducteurs humains. Et de rappeler quelques vérités
essentielles de notre métier, à commencer par le fait qu’une entreprise
prend un risque en responsabilité lorsqu’elle émet un document vers
l’extérieur, et que ce risque est accru lorsque la diffusion est
dirigée vers un pays/une langue étrangère au donneur d’ordre. Par
conséquent, il ne saurait y avoir de compromis en matière de qualité,
c’est-à-dire en matière d’exactitude du message délivré.
Si Google Translate fournit un résultat satisfaisant dans certains cas
(comme dans cet extrait du Petit Prince), il est catastrophique dans
d’autres (comme dans cet exemple de texte français, traduit d’après
l’anglais). Il est d’autant moins fiable qu’il n’est pas
personnalisable par l’utilisateur. C’est d’ailleurs la raison pour
laquelle les équipes de Google ne se contentent pas d’aligner une
gigantesque masse de données générique, comme ils l’expliquent ici, là,
ou encore là. Et bien sûr, il y a aussi Google Translator’s Toolkit,
dont les textes alignés par des humains viennent améliorer gratuitement
le moteur.
Lutter contre la pénurie de traducteurs
En fait, une double tendance se dessine : d’une part, un accroissement
très important des volumes de textes à traduire, tiré par
l’automatisation (voir l’étude de Language Weaver) et, dans le même
temps, une exigence accrue en matière de qualité de traduction.
Exigence nourrie par la méfiance des clients à l’égard des traducteurs
humains qu’ils suspectent, parfois à raison, de refourguer, en la
faisant payer, la production de Google. Car il est vrai que les
« mauvaises pratiques » sont une des plaies de notre profession, et
l’amateurisme (ou la malhonnêteté) de quelques uns ruine l’image des
vrais professionnels. N’est-ce pas, au fond, la raison pour laquelle
les grandes institutions (Europe, ONU, Gouvernement Canadien) déplorent
une pénurie de traducteurs et collaborent à des programmes de formation
(voir aussi cet article), voire les financent ?
Sans doute n’est-on plus très loin d’une segmentation du marché de la
traduction (en tous les cas pour les langues majeures) où la traduction
automatique à la Google contraindra peu à peu les amateurs à se retirer
du marché ou à s’améliorer, tandis que les traducteurs professionnels
exigeants conserveront la confiance de leurs donneurs d’ordre (et même,
augmenteront leurs tarifs) pour des textes de taille moyenne, et que
d’autres traducteurs, professionnels de la mécanique linguistique,
personnaliseront en amont comme en aval des systèmes de traduction
automatique de type Systran pour concilier volume, rapidité et qualité.
Si cette répartition des tâches se réalisait, j’y verrais au moins deux
avantages : l’élimination des textes traduits à la va comme je te
pousse, qu’ils soient issus de traducteurs humains ou pas, et, par voie
de conséquence, l’amélioration des revenus des professionnels, qui se
feront -enfin !- payer à l’heure à des tarifs comparables à ceux des
consultants.
——–
On ne saurait tirer une conclusion générale sur la qualité de
traduction de Google en s’appuyant sur Le Petit Prince, et cela pour
trois raisons majeures. Un, il s’agit d’un texte fluide, simple,
extrêmement bien rédigé, donc facile à analyser pour un moteur. Deux,
ce texte fait partie des mmonuments de la littérature mondiale et, à ce
titre, il a toutes les chances d’avoir été intégré au corpus
d’entraînement de Google, c’est-à-dire de faire partie des références
que le moteur interroge avant de renvoyer une réponse. Trois, il n’est
absolument pas représentatif de ce qui est envoyé en traduction par les
entreprises clientes.
Il faudra un jour enquêter sur les mauvais côtés du statut
d’auto-entrepreneur.
Publié dans Actualité de la traduction, Traduction automatique | 3
Réponses
Traduction automatique : toujours plus !
Publié le 8 mars 2010 par Guillaume
Répondre
Les annonces pleuvent en matière de traduction automatique.
Tantôt, c’est SDL Trados qui intègre plus de moteurs à la nouvelle
version de son logiciel à mémoire de traduction ; tantôt c’est Google
qui lance une version de son navigateur Chrome capable de traduire une
page Web sans passer par une extension ; quand ce n’est pas Microsoft
qui présente son futur téléphone-traducteur(1), ou Google (encore !)
qui traduit le texte d’une photo(2)…
Et puis, dans cette jungle d’applications toujours plus
business-centric, orientées vers la productivité totale (à défaut de
qualité totale), on a de temps en temps un moment de respiration.
Quand quelqu’un se souvient, par exemple, que traduire c’est
communiquer, et décide de lancer un application gratuite destinée à
faire se parler Arabes et Occidentaux.
C’est ce que propose Meedan, un site qui traduit automatiquement les
textes qui lui sont soumis avant de les faire relire par des êtres
humains puis de les publier (dans cet ordre). Le site fonctionne à la
façon d’un Wiki et se consacre à améliorer la compréhension des uns par
les autres, et vice-versa(3). Bref, fait oeuvre utile. Pour de bon. Si
vous voulez en savoir plus à ce sujet, lisez l’article que lui consacre
Francis Pisani sur son blog, et, pourquoi pas inscrivez-vous comme
traducteur volontaire !
Le Monde s’intéresse à la traduction automatique
Publié le 25 février 2010 par Guillaume
Répondre
Le Monde publie aujourd’hui un article intéressant sur la question de
la traduction automatique, où sont confrontés les points de vue de
Google (qui annonce depuis peu de grandes ambitions dans ce domaine),
de Systran, par la voix de son Directeur Marketing, Pierre Bernassau,
et de Marie Candito, chercheuse spécialisée dans la question,
enseignante à l’Université Paris Diderot (Paris 7).
Le sujet de l’analyse statistique et de l’analyse syntaxique, et de
leurs limites (étendue du corpus pour l’une, structure linguistique du
couple de langue pour l’autre) sont particulièrement bien mises en
lumière.
Publié dans Actualité de la traduction, Traduction automatique |
Laisser une réponse
Traduction automatique : Systran se présente en ligne
Publié le 1 février 2010 par Guillaume
Répondre
Le cycle des matinées découvertes de Systran Enterprise Server 7.0 a
repris depuis le 27 janvier. Une nouveauté de taille : il est possible
de s’inscrire à des présentations sur site (à La Défense) comme sur le
Web (Webinaires). Les inscriptions se prennent directement auprès de
Pierre Bernassau, le directeur Marketing (bernassau systransoft.com).
Publié dans Outils de traduction, Traduction automatique | Laisser une
réponse
Google exploite la traduction automatique à bon escient
Publié le 11 décembre 2009 par Guillaume
1
Nous l’avions déjà mentionné il y a plusieurs mois, Google innove sans
cesse en matière de recherche « globale », et mixe ses technologies
les unes aux autres afin d’en décupler leur puissance.
Depuis deux jours, il est ainsi possible, et très facile, d’afficher
des résultats de recherche en provenance de plusieurs langues.
1. Après avoir tapé sa requête initiale, on clique sur le lien
intitulé « Afficher les options » qui se trouve désormais juste en
dessous de la zone de recherche.
2. Une zone verticale s’ouvre alors sur la gauche de l’écran, qui
propose de nombreuses options de recherche, toutes intéressantes à
explorer.
3. La toute dernière, « interlangues », ouvre un cadre au-dessus du
premier résultat de recherche. Les résultats eux-mêmes sont mis à
jour en fonction des options de langue sélectionnées dans ce cadre.
4. Concrètement, on choisit une ou plusieurs langues dans lesquelles
Google effectue la recherche équivalente à ce qui a été tapé
initialement après traduction automatique de l’expression de
recherche.
5. Les résultats en provenance de ces langues sont traduits dans la
langue de départ, classés en fonction des habituels critères Google
de référencement naturel et affichés. Chaque résultat signale
clairement la langue d’origine.
6. Lorsque l’on clique sur l’un des résultats, la page qui s’affiche a
déjà été automatiquement traduite dans la langue de la requête
initiale. Ce qui permet d’ailleurs de contrôler que les sites
commerciaux internationaux ne font pas appel aux outils de
traduction automatique pour générer leurs versions locales.
Honnêtement, il faut avouer que tout ceci est assez impressionnant. Et,
malgré tout ce qu’on est habituellement enclin à penser de la
traduction automatique, il faut reconnaître qu’elle est, dans ce cadre,
utilisée à bon escient.
Publié dans Actualité de la traduction, Traduction automatique | Une
réponse
Traduction de sous-titres : Google automatise à tout va
Publié le 8 décembre 2009 par Guillaume
1
Google est en train d’ajouter une fonction automatisée de sous-titrage
aux vidéos publiées sur Youtube. La fonction sous-titrage existe déjà,
mais l’utilisateur qui souhaite sous-titrer sa vidéo doit en taper le
texte lui-même. Il sera bientôt possible (ça l’est déjà pour certaines
vidéos des chaînes éducatives) d’obtenir un sous-titrage automatique,
grâce à la technologie Google Voice, qui transcrit un enregistrement
audio.
Quel rapport avec la traduction ? Eh bien, il est d’ores et déjà prévu,
d’après cet article intéressant de Numérama, de rendre possible la
traduction automatique des sous-titres avec Google Translate. Autrement
dit, bientôt, pour sous-titrer une vidéo et la traduire, il suffira de
la poster sur un compte Youtube privé, et de faire appel à ces
fonctions automatisées.
D’ailleurs, Google a même prévu une vidéo de démonstration : regardez.
[EMBED]
Publié dans Actualité de la traduction, Outils de traduction,
Traduction automatique | Une réponse
Ouverture du douzième Machine Translation Summit
Publié le 5 août 2009 par Guillaume
1
Le douzième Machine Translation Summit se tiendra cette année du 26 au
30 août au château Laurier, à Ottawa (Canada).
Réunissant scientifiques, éditeurs de logiciels de traduction
automatique et utilisateurs de ces produits, cette conférence fait le
point sur l’état de l’art. Tous les principaux acteurs sont présents :
Promt, Systran, SDL, Terminotix, Language Weaver, Multicorpora, Common
Sense Advisory, etc.
Une journée entière sera consacrée à des formations à l’utilisation de
logiciels de traduction automatique, et une autre à l’évaluation des
différents produits. En toure, de nopmbreux ateliers s’intéresseront à
des sujets comme la post-édition de traductions automatiques, ou la
collaboration entre mémoires de traduction, Traduction automatique et
traducteurs. La liste des articles de recherche présentés est en
elle-même très intéressante.
Publié dans Outils de traduction, Traduction automatique | Une réponse
Systran Enterprise Server 7, un tournant pour la traduction automatique
Publié le 25 mai 2009 par Guillaume
4
Comme nous l’avions annoncé voilà quelque temps, Systran organise des
sessions de présentation de Systran Enterprise Server 7. Cette nouvelle
version constitue à n’en pas douter un tournant majeur pour le moteur
de traduction automatique, grâce auquel l’entreprise de San Diego prend
clairement l’avantage sur ses concurrents.
La raison ? Le moteur de traduction hybride associe l’analyse
sémantique à l’analyse statistique et intègre un processus
d’amélioration continue. Jusqu’à présent, Systran, comme promt ou
Reverso, reposait sur un système d’analyse sémantique. Le moteur
analysait chaque phrase source et créait l’arbre syntaxique permettant
de représenter ses composantes et les relations qui les unissent. Puis,
chaque expression était traduite en faisant appel à un dictionnaire,
et, une fois l’arbre entièrement traduit, le logiciel restituait la
phrase cible. Dans ce mode de traduction automatisée, le plus courant,
le dictionnaire constitue un élément central : plus il est complet,
meilleur est le résultat. Pourtant, même avec des dictionnaires très
fournis, il est presque impossible de produire une phrase cible
totalement correcte.
Car l’usage consacre des expressions qui constituent des exceptions
innombrables à l’analyse grammaticale traditionnelle, et le moteur
d’analyse syntaxique ne sait pas les reconnaître. Lorsque, par exemple,
on parle dans un manuel informatique de « la boîte de dialogue
Propriétés de Mes documents », le lecteur identifie « Propriétés de Mes
documents » comme un nom propre, complément du nom « boîte de
dialogue », et ne tente pas d’analyser plus en détail. Le moteur, lui,
va tenter d’attribuer une fonction à chacun des termes pris isolément :
comment relier « Propriétés » et « Mes documents » à « boîte de
dialogue » ? Pour que le dictionnaire permette d’identifier la solution
correcte, il faut qu’il la contienne : il faudrait avoir mis à jour le
dictionnaire sur la base du document avant de le traduire.
Lorsqu’on utilise un logiciel de traduction de ce type, il faut soit se
résigner à obtenir un résultat imparfait soit, si l’on est traducteur
soi-même, associer Mémoire de traduction, Traduction automatique,
Traduction humaine, et mise à jour interactive du dictionnaire de
traduction automatique. Cette combinaison d’outils et de savoir-faire
se révèle très puissante : on obtient un texte cible d’une excellente
qualité, en produisant 2 000 mots de l’heure, contre les habituels
2 500 mots par jour. L’auteur de ces lignes en a l’expérience, pour
avoir utilisé cette méthode il y a plusieurs années pour assurer la
traduction de deux ouvrages d’informatique de 1 500 pages chacun en
quatre mois.
Le moteur de Systran Enterprise Server 7 continue bien sûr d’utiliser
la méthode sémantique d’analyse des textes source. Mais il la complète
avec la méthode d’analyse statistique, qui a été popularisée par Google
Translate.
L’analyse statistique repose sur l’exploitation de corpus de
traduction, qui permettent de déterminer quelle est la traduction la
plus fréquemment utilisée pour une expression donnée. Autant un corpus
généraliste est presque inexploitable, car il devrait comporter des
milliards de phrases pour être utile (c’est un des aspects de la
difficulté qu’éprouve Google Translate à fournir des résultats
pertinents), autant un corpus spécialisé se révèle d’une efficacité
redoutable. Vous traduisez des brevets ? Imaginez un moteur capable
d’apprendre les règles à appliquer pour traduire des brevets en se
basant sur toute votre production passée. Il y a de fortes chances
qu’il produirait de bons résultats… si votre corpus d’origine est
lui-même de bonne qualité (voir à ce sujet l’article SMT: undersantding
the human factor, de Kirti Vashee, paru dans Multilingual en décembre
2008).
Lors de l’apprentissage du corpus, Systran Enterprise Server 7 crée des
« modèles de traduction » qui complètent les « modèles de langue ». Ces
modèles, propres au domaine de spécialisation couvert par le corpus,
ont pour fonction de lever les ambiguïtés de traduction issues du
moteur sémantique et d’améliorer la fluidité du texte cible. Ils sont
d’autant plus efficaces qu’ils gèrent des sous-segments (chunks,
expressions) et non des phrases entières. Or ce sont bien les
sous-segments qui posent le plus de problèmes en analyse sémantique.
Une fois le document source traduit grâce à l’association de ces deux
méthodes, il est mis à disposition dans un éditeur de texte.
L’utilisateur peut alors le modifier, corriger la formulation,
personnaliser les dictionnaires utilisés, préciser qu’il aurait fallu
employer tel usage plutôt que tel autre, etc. Si l’utilisateur apporte
des modifications aux dictionnaires, il peut ensuite demander une
nouvelle traduction, qui prendra ses changements en compte. Mais il
peut aussi tout simplement changer la phrase elle-même. Il corrige
ainsi la Mémoire de traduction issue de l’alignement automatique entre
les phrases du document source et leurs contreparties du document
cible. Ces modifications une fois validées, la Mémoire peut être
ajoutée au corpus, et sera analysée par le moteur d’analyse
statistique. En fait, comme l’analyse de corpus est un processus assez
long et consommateur de ressources, les Mémoires de traduction issues
des traductions révisées n’y sont pas ajoutées automatiquement. C’est à
l’utilisateur de décider, à un moment donné, d’enrichir son corpus
existant de tous les travaux réalisés sur une période donnée, voire de
créer un corpus entièrement nouveau.
La solution logicielle complète fonctionne sur un modèle client-serveur
: les corpus sont stockés sur le serveur avec le moteur, qui est
interrogé par des outils clients. Par exemple, le Gestionnaire de
projets, qui traduit un ou plusieurs fichiers à la fois, contient une
interface de post-édition bilingue, qui permet de réviser les
ambiguïtés, d’afficher toutes les occurrences d’un terme dans le
document, d’ajouter des mots ou des sens inconnus aux dictionnaires, de
procéder à des extractions terminologiques, de créer des clichés de
traduction qui mémorisent l’état courant de la traduction et autorisent
des comparaisons ultérieures entre clichés, etc. Les autres outils
permettent par exemple de traduire un texte sans quitter Microsoft
Word, ou d’afficher une barre d’outils de traduction disponible pour
toutes les applications.
Systran Translation Server 7 gère pour le moment plus de 20 domaines de
spécialisation prédéfinis et 52 paires de langues bidirectionnelles,
auxquelles vont bientôt s’ajouter 16 autres paires monodirectionnelles.
Il devrait être disponible à la vente en septembre 2009, les prix étant
bien entendu élevés, puisqu’il s’agit d’une solution destinée à
permettre aux entreprises de traduire d’importants volumes de textes.
En associant ainsi analyse sémantique, analyse statistique, mémoires de
traduction et traduction humaine, Systran se donne les moyens de faire
rimer traduction automatique et qualité, et de peser sur le marché. La
solution semble vraiment très prometteuse pour la traduction de
nombreux documents longs traitant d’une thématique donnée : brevets,
ouvrages spécialisés, réglementations,… le champ est vaste !
Publié dans Traduction automatique | 4 Réponses
La traduction automatique passe à l’apprentissage profond
La traduction automatique passe à l’apprentissage profond
Le mardi 28 août 2018 Gratuit
Depuis quelques années, l'apprentissage profond a révolutionné le
domaine de la traduction automatique. Les résultats montrent un immense
progrès par rapport aux techniques utilisées auparavant, mais on est
encore loin d'une traduction idéale, surtout pour les langues moins
usitées ou qui nécessitent une analyse syntaxique poussée.
Depuis ses débuts, la traduction automatique a subi de multiples
transformations. La première approche mise en œuvre, des années 1950
jusqu'aux années 1990, était fondée sur des règles, puis
progressivement, les approches statistiques ont pris le dessus. L’idée
principale des approches à base de règles consiste à utiliser des
dictionnaires bilingues ainsi qu'une analyse plus ou moins fine de la
structure des langues visées, au moyen de règles définies manuellement.
Les limites de ces systèmes sont apparues rapidement : le sens des mots
est trop ambigu, il dépend trop du contexte pour que l’on puisse tout
formaliser sous forme de règles. Les linguistes sont dès lors
confrontés à deux problèmes connexes : d’une part, l’impossibilité de
définir assez de règles pour pouvoir déterminer le sens de tous les
mots en contexte (il faut avoir en tête qu’un dictionnaire courant
contient environ 50 000 mots, et que chaque mot peut avoir plusieurs
sens), d’autre part, les règles définies interagissent les unes avec
les autres, ce qui, en pratique, rend les systèmes ingérables dès
qu’ils atteignent une certaine ampleur.
A la fin des années 1980, l’apparition de grands corpus bilingues
change la donne : ces corpus ne pourraient-ils pas servir de base de
connaissances géante, pour déterminer les traductions futures à partir
de traductions existantes ? On commence en effet à disposer à partir de
la fin de cette époque de grands corpus parallèles sous forme
électronique, c’est-à-dire de textes bilingues, où le texte en langue
source est « aligné » avec le texte en langue cible au niveau des
phrases, et parfois au niveau des mots. Un des corpus le plus utilisé,
dans les années 1980, est le Hansard, qui contient les transcriptions
officielles des débats parlementaires canadiens. Il s’agit donc d’un
corpus bilingue français-anglais et la nature des documents fait que la
traduction doit être extrêmement précise et fidèle. Les textes peuvent
donc être alignés au niveau du document, mais aussi de la phrase voire
à l'intérieur de la phrase.
Ensuite il ne s’agit bien évidemment pas de retrouver telles quelles
des phrases à traduire dans les corpus passés, mais des fragments de
traduction, au niveau des mots ou de groupes de mots, puis d’assembler
ces fragments de traductions pour former des phrases correctes dans la
langue cible. L’idée, tout d’abord testée à titre exploratoire,
s’impose rapidement devant la qualité inespérée des traductions ainsi
obtenues. La réalité du corpus fait foi. Autrement dit, l’observation
de grandes masses de données permet de déterminer assez finement le
sens en tenant compte du contexte.
Ainsi, le niveau de stabilité des traductions observées pour un mot
donné permet de déterminer son degré d’ambiguïté. Si un mot est presque
toujours traduit par le même mot dans la langue cible (comme
« crystallography » en anglais face à « cristallographie »), alors il
est peu ambigu, c’est-à-dire qu’il a un seul sens, stable et précis,
tandis qu’à l’opposé une grande diversité de traductions révèlera un
mot polysémique, dont le sens dépend davantage du contexte (comme
« avocat » qui peut être rendu par « avocado », « lawyer »,
« attorney », « consel », etc.). Les systèmes automatiques et, plus
particulièrement statistiques, sont très efficaces pour déterminer les
bons indices permettant de trouver la bonne traduction (il peut s’agir
de simples cooccurrences : si les mots « table » « mange » ou
« salade » sont présents dans le contexte, alors « avocado » a des
chances d’être une bonne traduction ; à l’inverse si c’est « juge » ou
« tribunal » que l’on trouve en contexte, la traduction par « lawyer »
sera plus indiquée. Cet exemple est très simple, mais il illustre bien
la puissance de l’ordinateur qui pourra enregistrer de manière
automatique ces différents contextes à très large échelle, ce qui est
au contraire extrêmement fastidieux pour un humain. L’approche sera
constamment améliorée, en particulier pour aller au-delà des mots et
procéder à la traduction directe de groupes de mots, plus ou moins
longs, ce qui améliore les traductions obtenues et permet notamment
d’éviter l’écueil du mot à mot.
L'intelligence artificielle change la donne
La traduction statistique souffre toutefois de problèmes connus et
difficiles à surmonter. En particulier, une des faiblesses majeures de
ces systèmes est de devoir composer la traduction d’une phrase par
assemblage de fragments de textes trouvés dans la langue cible. Or ces
fragments peuvent être hétéroclites et ne sont pas toujours compatibles
entre eux : il y a dès lors un fort risque d’obtenir des phrases
bancales, voire incohérentes. Si les systèmes se sont considérablement
améliorés depuis les années 1990, les phrases restent toutefois souvent
mal traduites, surtout si elles sont longues.
Par ailleurs, on observe que le Web est un objet de plus en plus
multilingue. Ainsi, la part des utilisateurs dont la langue maternelle
est l’anglais serait passée aux alentours de 25% récemment (cf.
Internet World Stats, Miniwatts Marketing Group), et cette proportion
est en constante diminution depuis le début du Web. Les besoins en
matière de traduction automatique sont donc avérés et le marché
continue de pousser pour une traduction de meilleure qualité.
Alors que les systèmes de traduction automatique statistique
s’amélioraient régulièrement, un changement majeur est survenu ces
dernières années. Il s’agit, comme on peut s’en douter, de l’arrivée de
l’apprentissage profond (c’est-à-dire des réseaux de neurones
artificiels). L’approche neuronale a un énorme avantage sur l’approche
statistique classique : elle permet de considérer la phrase en entier,
d’un coup, ce qui évite la phase hasardeuse d’assemblage des fragments
épars de traduction.
La nouveauté principale est de procéder par une analyse contextuelle
globale, c’est-à-dire qu’à tous les niveaux d’analyse, le sens des mots
sera représenté par leur entourage. Puis, les mots sont regroupés en
ensembles plus larges sémantiquement homogènes baptisés plongements de
mots (ou « word embeddings » en anglais). L’avantage de cette technique
est d’améliorer notablement la notion de contexte en prenant en compte
non seulement le contexte du mot considéré, mais aussi celui des mots
les plus proches sémantiquement, ce qui permet de mieux prendre en
compte les mots rares par exemple. L’analyse de la phrase est
hiérarchique : pour chaque niveau (mot, groupes de mots, puis phrase
complète) une représentation riche, contextuelle et dynamique est à
l’œuvre (riche car un très grand nombre d’informations de natures très
diverses est pris en compte ; dynamique et contextuelle car le contexte
à prendre en compte change dynamiquement pour chaque unité linguistique
à analyser). Un aspect intéressant de cette approche est que le
système, en découvrant progressivement des régularités de façon
incrémentale, identifie des groupes de mots linguistiquement liés.
Autrement dit, sans que la syntaxe – c’est-à-dire les relations entre
les mots – soit directement et explicitement formalisée, le système la
reconstitue de lui-même en partie.
Au-delà des performances, certaines caractéristiques de cette approche
entrent en résonance avec les sciences cognitives, ce qui contribue
aussi à sa popularité. Les mots, tout comme les syntagmes () ou les
phrases, peuvent être directement comparés sur une échelle relative.
Autrement dit, non seulement obtient-on des synonymes ou des antonymes,
mais on trouve aussi par cette méthode des mots plus ou moins proches
sémantiquement, ou qui constituent des traductions plus ou moins
pertinentes selon le contexte, ce qui semble bien correspondre à la
réalité de la langue. Le fait que des éléments de structure – de
syntaxe – apparaissent dans la traduction sans que celle-ci soit
encodée explicitement est aussi une caractéristique importante de ces
modèles.
On est ici très loin, voire à l’opposé des approches manuelles en vogue
au début de la traduction automatique. L’approche par apprentissage
profond peut dès lors susciter des discussions sur ses rapports avec
l’apprentissage humain. Mais l’analogie a aussi ses limites. Ainsi, les
systèmes ont encore besoin d’infiniment plus de données qu’un humain
pour inférer des connaissances, ce qui pose problème pour les langues
moins bien représentées sur Internet par exemple. Les systèmes
d’apprentissage sont aussi complètement déconnectés de la réalité et
n’ont aucune connaissance de sens commun par exemple.
Les limites de l'apprentissage profond
L’approche neuronale s’est généralisée en quelques mois à l’ensemble
des grands acteurs de la traduction automatique. Le mouvement a été
particulièrement frappant à l’automne 2016, quand Google a proclamé
avoir remplacé son système de traduction automatique fondé sur
l'approche statistique par un modèle par apprentissage profond, avec
une amélioration immédiate et très visible des résultats. A sa suite,
tous les grands acteurs du domaine ont annoncé leur passage à
l’apprentissage profond. Le contraste a été assez saisissant avec ce
qui s’était passé 25 ans plus tôt, quand l’approche statistique avait
mis plusieurs années à s’imposer. Dans les années 1990, certains
acteurs du domaine opposaient statistiques et sémantique. En 2016, nul
débat de ce type : l’amélioration du système de Google a été nette (au
moins pour certains couples de langues comme français-anglais) et la
popularité de l’apprentissage profond dans d’autres domaines (du jeu de
go à la vision artificielle) a fait le reste.
Tous les problèmes de la traduction automatique ne sont pas résolus
pour autant. Certains sont des problèmes classiques de la traduction
automatique, comme celui du traitement des mots « inconnus »
(c’est-à-dire inconnus du système). La gestion des mots inconnus est un
problème banal, mais toujours mal résolu et pour lequel chaque équipe
met au point des « remèdes » plus ou moins efficaces. (translittération
ou copie directe si le mot a des chances d’être un nom propre, analyse
de la structure du mot si elle est possible ; en pratique le mot est
souvent juste copié ou « omis » dans la langue cible, faute de
traitement adéquat).
Plus fondamentalement, comme pour les approches statistiques,
l’apprentissage profond nécessite toujours énormément de données (des
corpus parallèles de plusieurs millions de mots). Il est donc douteux
que l'on dispose jamais (ou en tout cas pas dans un futur proche) de
corpus bilingue suffisant pour développer des systèmes efficaces,
au-delà d’un cercle restreint d’une dizaine ou d’une quinzaine de
langues bien représentées sur Internet. C'est manifeste sur la qualité
des traductions produites : celles-ci sont relativement bonnes entre le
français et l’anglais, mais beaucoup moins pour d’autres couples de
langues (ainsi les traductions de l’arabe ou du chinois, bien qu’ayant
donné lieu à de très nombreuses recherches, restent encore souvent très
défaillantes).
Au-delà de la masse de données disponibles, différents facteurs
expliquent la grande variation de la qualité des traductions obtenues.
La traduction vers l’anglais est plus aisée que vers d’autres langues
car l’anglais isole les mots et a une morphologie particulièrement
pauvre. Autrement dit, les mots varient peu en anglais : le genre, le
nombre voire le temps verbal est à peine marqué, alors que d’autres
langues tel l’allemand ou le russe agrègent beaucoup d’informations sur
le mot. Du coup, pour traduire en allemand ou en russe, il faut d’abord
procéder à une analyse syntaxique pour déterminer la fonction du mot
dans la phrase, puis son cas et sa forme précise, telle qu’on la trouve
dans les textes. Ce type d’analyse est complexe, et les systèmes
passent de surcroît fréquemment par l’anglais pour traduire (même quand
la source ou la cible n’est pas l’anglais), rajoutant autant d’erreurs
potentielles. Toutefois, même si les grands acteurs en sont encore là,
c’est qu’ils ont observés qu’une double traduction passant par
l’anglais donne malgré tout de meilleurs résultats qu’une traduction
directe entre les deux langues concernées.
Enfin, la structure et la proximité linguistique des langues a aussi
une influence majeure. La traduction entre langues indo-européennes,
même parfois avec relativement peu de données disponibles, fonctionne
mieux que la traduction vers le chinois ou l’arabe, car ces langues ont
une structure et des principes linguistiques très différents de ceux de
l’anglais. Une question intéressante est alors de savoir jusqu’où les
approches à base d’apprentissage sur de grands corpus parallèles
peuvent s’améliorer ou, autrement dit, s’il y a des limites
fondamentales inhérentes à l’approche qui exigeraient un retour de la
syntaxe ou des linguistes dans l’affaire.
Thierry Poibeau et Marianne Reboul
Thierry Poibeau est directeur de recherche au CNRS. Il mène des
recherches en traitement automatique des langues à l’Ecole normale
supérieure à Paris, au sein du laboratoire Lattice (langues, textes,
traitements informatiques, cognition, UMR 8094).
Marianne Reboul est maître de conférences en Humanités Numériques à
l'ENS de Lyon, menant ses recherches au sein du laboratoire IHRIM (UMR
5317).
() Un syntagme est un groupe de mots formant une unité au sein de la
phrase (on parle aussi de groupe nominal, de groupe verbal, etc.).
Photo : DR
Évaluer la traduction automatique
L’évaluation des systèmes de traduction automatique (par exemple la
mesure de la performance relative de différents systèmes, ou de leur
progrès au cours du temps) est un problème difficile mais crucial.
C’est un problème difficile dans la mesure où il n’y a pas de critère
formel clair permettant de définir ce que serait une bonne traduction.
Du fait de cette difficulté, la solution la plus courante consiste
simplement à comparer une traduction automatique avec des traductions
manuelles de référence au moyen de séquences contiguës de n mots
appelées « n-grammes » (en pratique, on utilise souvent des séquences
de 4 mots). Plus il y a de séquences de 4 mots en commun entre la
traduction automatique et la/les traduction/s de référence, plus la
traduction sera jugée de bonne qualité (cette mesure est appelée BLEU,
pour Bilingual Evaluation Understudy). Ce type d’évaluation peut
surprendre dans la mesure où elle semble très simpliste, et qu’elle
n’intègre aucun élément de nature syntaxique ou sémantique (elle ne
permet pas de s’assurer que les phrases sont correctes ni qu’elles
rendent compte de la sémantique du texte original). Il s’agit toutefois
d’une technique d’évaluation rapide, efficace et simple à mettre en
œuvre ; il a surtout été montré qu’elle est relativement bien corrélée
aux jugements humains : les scores obtenus ne sont pas significatifs en
soi, mais ils permettent de comparer relativement finement des systèmes
entre eux, ou l’évolution de la qualité d’un système au cours du temps.
Réseau de neurones et réseaux d'influence
La traduction automatique est un domaine applicatif, mais peut aussi
donner lieu à des recherches très différentes, pour analyser des œuvres
littéraires par exemple. Ainsi, en analysant trois traductions de
l'Odyssée d'Homère, nous avons pu mettre en évidence comment les
traductions se distinguent dans la manière de traduire selon les
époques. Chaque mot des traductions est représenté par un vecteur de
mots, c'est-à-dire une représentation sémantique des mots sous forme de
vecteurs en n dimensions. Ces vecteurs de mots, construits à l'aide des
techniques des réseaux de neurones sont notamment utiles pour évaluer
la proximité d'emploi de mots entre les textes. Sur cette
représentation, nous avons représenté les vecteurs de mots de trois
traductions d'Homère (Anne Dacier, seule traductrice d'Homère, au
XVII^e siècle ; Leconte de Lisle au XIX^e ; Victor Bérard au XX^e). On
constate que la traduction de Dacier est sémantiquement plus éloignée
que celle des deux traductions postérieures. Lorsqu'on travaille sur
des textes fréquemment traduits, on peut donc étudier les traducteurs
qui s'inspirent les uns des autres en fonction de la manière dont ils
traduisent.
Références :
Homère, L’Odyssée traduite en francois, avec des remarques, trad. Anne
Dacier, Paris, Rigaud, 1716, 3 vol.
Homère, L'Odyssée, Hymnes, Épigrammes, Batrakhomyomakhie, trad.
Charles-Marie Leconte de Lisle, Paris, Lemerre, 1868
Homère, L’Odyssée : chants I à VII, t. 1, trad. Victor Bérard, Paris,
Les Belles Lettres, 1924, 3 vol.
Image : Thierry Poibeau et Marianne Reboul
Chez Google on se préoccupe aussi d’accessibilité et de continuer à
innover pour proposer des services simples qui sont réellement utiles.
C’est le cas aussi dans les filiales de Google, et notamment chez
YouTube, qui a lancé il y a quelques jours deux nouvelles
fonctionnalités relatives au sous-titrage et à la traduction des
vidéos.
autocaps
Auto-caps (pour Automatic Captions, en français : sous-titres
automatiques) est un nouveau service qui combine l’ASR (automatic
speech recognition) de Google et le système de sous-titres de YouTube
pour générer automatiquement la transcription écrite et synchronisée en
temps réel du texte contenu dans les vidéos de YouTube. Ainsi, ceux qui
souffrent de déficience auditive ou de surdité peuvent-ils suivre par
exemple la vidéo d’une conférence en lisant les sous-titres générés à
la volée, comme ici par exemple.
[EMBED]
Mais le système Auto-caps ne se limite pas à rendre accessible les
vidéos aux mal-entendants : c’est aussi une assistance formidable pour
ceux dont le niveau d’anglais est insuffisant pour pouvoir suivre une
conférence oralement mais suffisant pour en lire et en comprendre le
transcript. Sans compter qu’ils pourront encore être aidés par la
traduction automatique des transcripts dans leur langue.
> Lire aussi : Google aurait l’intention de déployer Google Assistant
sur presque tous les Chromebook
Autre fonctionnalité proposée avec ces nouveautés : la possibilité
d’associer son propre transcript au format texte (.txt) à une vidéo
pour que YouTube se charge de le synchroniser afin de le transformer en
sous-titrage.
Auto-caps n’est pour le moment disponible qu’en anglais et pour une
sélection de sites à vocation éducative comme UC Berkeley, Stanford,
MIT, Yale, UCLA, Duke,UCTV, Columbia, PBS ou encore National
Geographic, mais devrait être étendu prochainement à d’autres sites. La
traduction des sites bénéficiant d’Auto-caps est quant à elle déjà
disponible dans plusieurs langues, dont le français.
(source)
GoogletraductionYoutube
[presse-citron-nav.png]
Sur le même sujet
Google travaillerait sur un mode sombre pour Android Q
Google Bermudes Google Bermudes
En 2017, Google a transféré environ 20 milliards d’euros aux
Bermudes
Verily Google Alphabet Verily Google Alphabet
Verily, la filiale de Google dédiée aux sciences lève un milliard
de dollars
Depuis des années, géants du Web et start-up spécialisées s’affrontent,
à grand renfort de communiqués triomphants, pour affirmer que leur
outil de traduction automatique est supérieur aux autres. Dernier
épisode en date : le lancement de DeepL, mardi 29 août, une société
européenne qui revendique un service « trois fois plus performant que
celui de Google ». Malgré la nouveauté du nom, elle n’est pas inconnue
puisqu’elle propose déjà le dictionnaire en ligne linguee.com.
DeepL a puisé dans sa formidable base de données issue du site
Linguee pour s’entraîner
Tous ces services utilisent désormais des technologies similaires,
fondées sur l’apprentissage automatisé (« deep learning », ou réseaux
de neurones artificiels), une révolution récente, notamment connue pour
avoir permis de battre les meilleurs joueurs de go. Elle permet aussi
aux assistants vocaux d’obéir à leur maître, ou aux voitures, d’avancer
sans pilote… Pour la traduction, c’est seulement en 2014 qu’un schéma,
proposé par l’université de Montréal, a fait faire un saut qualitatif
aux outils automatiques. Les groupes majeurs du secteur de
l’informatique les ont rapidement adoptés et perfectionnés avant de les
mettre à disposition en ligne depuis quelques mois seulement. DeepL
s’inspire de ce principe mais n’en communique pas pour l’instant les
détails. Une chose est sûre, il a puisé dans sa formidable base de
données – issue du site de traduction Linguee – pour s’entraîner et
apprendre.
Pour nous faire une idée plus précise, nous avons effectué un test
simple et efficace (bien que nécessairement limité) : nous avons fait
traduire à ces logiciels une série de textes de l’anglais vers le
français, en puisant dans différents registres d’écriture, allant de la
poésie aux documentations techniques. Nous avons testé cinq services :
DeepL, les services de traduction de Google, Bing, Yandex et Baidu
(déployez les fenêtres pour pouvoir comparer les textes). Ces tests
sont loin d’être exhaustifs, mais permettent de voir quelles sont les
différences entre ces services dans le cadre d’un usage « du
quotidien ». A noter que DeepL propose pour l’instant seulement sept
langues (français, anglais, allemand, italien, polonais, néerlandais et
espagnol).
Poésie. Confrontés à un poème d’Emily Dickinson, To Make a Prairie, les
différents traducteurs se sont emmêlé les pinceaux. Si le texte
original est bref et ne comporte pas de pièges de traduction, ni Bing
ni Baidu ne sont parvenus à traduire le terme « revery » (« rêverie «),
certes peu usité, et Yandex n’a tout simplement pas compris la dernière
partie du poème. Google traduction s’en est à peine mieux sorti, avec
une traduction très personnelle de « revery » par « convivialité » et
un problème sur l’expression « will do » (« suffira », et non
« fera »). DeepL, quant à lui, a traduit correctement l’essentiel du
poème, à une erreur près : l’absence d’un déterminant aux troisième et
quatrième lignes, erreur qu’aucun traducteur humain n’aurait faite.
Documentation technique. C’est le point fort des outils de traduction
automatique : confrontés à un texte simple (en l’occurrence, un extrait
du manuel de la PlayStation 4), tous se sont bien sortis d’affaire. A
noter, l’extrait ne comportait pas de vocabulaire technique spécifique
– si vous devez régulièrement traduire des textes avec de nombreux mots
spécifiques à un corps de métier, les résultats peuvent être beaucoup
plus variables.
Article de presse. Un extrait d’un article sur l’interprétation d’une
tablette babylonienne a donné du fil à retordre aux traducteurs
automatiques. DeepL s’en est mieux tiré que ses concurrents, là aussi
en faisant une maladresse de traduction qu’un traducteur humain
n’aurait pas faite (les « sept merveilles de l’ancien monde » aurait
plutôt été traduite par « les sept merveilles du monde » ou « de
l’Antiquité »). Bing a glissé deux contresens dans sa traduction
(« supportée » et « convaincus »). Google a quant à lui commis un
contresens dès le premier mot (« fabled », faux-ami signifiant
« célèbre », traduit par « fable »). Les deux américains s’en tirent
cependant un peu mieux que Baidu et Yandex, dont les traductions sont
bien moins compréhensibles que le théorème de Pythagore.
Texte à la première personne. Sur un bref extrait d’une tribune, au
style sobre d’un ministre, DeepL a également obtenu de meilleurs
résultats que les autres services, grâce à des tournures de phrase plus
« françaises » et en évitant un petit piège : les quatre autres ont
traduit « to discuss these issues further » par « discuter de ces
questions plus loin », ce qui n’est pas correct. DeepL a lui
correctement traduit par « discuter de ces questions plus en
profondeur ». Néanmoins, Google et Bing ont fait montre de style en
évitant les répétitions, « J’admire et respecte » au lieu de « J’admire
et je respecte » pour DeepL.
Compte rendu sportif. C’est de très loin le texte qui a posé le plus de
problèmes aux cinq outils, qui s’écartent de leurs performances
poétiques ou techniques. La verve du commentateur du Guardian résumant
la finale de la Coupe du monde de rugby entre l’Angleterre et la
Nouvelle-Zélande a eu raison de leurs e-neurones. DeepL traduit
« tacle » au lieu de « plaque ». Google tire un coup de fusil, au lieu
de taper au pied. Bing déguise en « mouche » une demie d’ouverture
(« fly-half », en anglais). Baidu et Yandex sont K.-O., dès les
premières minutes du match, enchaînant les erreurs, les en-avant et
non-sens.
Conclusion. Il est toujours facile de leurrer un traducteur
automatique, et même quand les phrases sont correctes, sur la longueur,
le lecteur ressent le côté froid de la machine. Néanmoins, les progrès
sont réels, comme le montrent les résultats à des tests normalisés pour
évaluer avec rigueur la qualité des outils. Lors de la mise en ligne de
son nouvel algorithme fin 2016, Google avait gagné plusieurs points au
test dit BLEU. DeepL communique qu’elle a encore progressé à ce test,
surpassant de près de trois points le meilleur des algorithmes publiés
de l’anglais vers l’allemand et de plus de trois points, de l’anglais
vers le français. Tout en restant loin des performances humaines.
David Larousserie et Damien Leloup
Réagissez ou consultez l’ensemble des commentaires
Les plus lus
1. A Tokyo, Carlos Ghosn clame son innocence
2. Le Parlement britannique prend la main sur le Brexit en infligeant
un camouflet à Theresa May
3. « Gilets jaunes » : Chantal Jouanno se retire du pilotage du grand
débat national
Édition du jour
Traduction automatique, ATALA, CETA, CETAP, CETAG
Haut de page
Plan
La traduction automatique : un enjeu scientifique, technique et
économique sans précédent
Le retard français
L'informatique en France à la fin des années 1950
L'Institut Blaise-Pascal
Les machines et les hommes
La cybernétique
La linguistique au CNRS en 1959
Émile Delavenay, l'Unesco et l'ATALA
La préhistoire de la traduction automatique en France : le rôle d'É.
Delavenay et de l'Unesco
L'ATALA et le centre Favard
Création du CETA
Le CETAP
Le CETAG
Le rapport Sestier
Un centre de traduction en séries
Technologie linguistique et ingénieurs linguistes
La répartition des tâches : un problème de machines ?
La dissolution du CETAP
L'abandon de la recherche en syntaxe
Les linguistes français qui s'intéressent à la traduction automatique
Le groupe de traduction automatique de Nancy
La démission d'A. Sestier
Conclusion
Haut de page
Notes de la rédaction
L'auteur tient à remercier André Lentin, Yves Gentilhomme, René Moreau,
Guy Bourquin, Bernard Pottier, Antoine Culioli, Maurice Gross, Sophie
Fisher et Claude Del Vigna pour les informations qu'ils lui ont
communiquées ou les archives qu'ils ont bien voulu lui confier. Ils ne
peuvent bien sûr être tenus pour responsables des erreurs ou omissions
qui figureraient dans cet article.
Texte intégral
PDF Signaler ce document
1C'est en 1959-1960 que se concrétise l'intérêt des Français pour la
traduction automatique. Le CNRS y participe pleinement en créant en
décembre 1959 le CETA (Centre d'études pour la traduction automatique)
au sein de l'Institut Blaise-Pascal, avec deux sections, l'une à Paris,
le CETAP, dirigé par Aimé Sestier, l'autre à Grenoble, le CETAG, dirigé
par Bernard Vauquois. La création du CETA est précédée par celle de
l'ATALA (l'Association pour l'étude et le développement de la
traduction automatique et de la linguistique appliquée) en septembre
1959. Elle sera suivie par celle du groupe de traduction automatique de
la faculté des lettres de Nancy, en mai 1960, dirigé par Bernard
Pottier et Guy Bourquin.
2La traduction automatique est donc un des premiers bénéficiaires de la
politique gaullienne de renforcement de la recherche initiée à la fin
des années 19501. Pourtant, il faut noter que l'intérêt des Français à
son égard est relativement tardif, puisque les premières recherches sur
la faisabilité de traductions à l'aide d'une calculatrice électronique
datent de 1948 en Grande-Bretagne et aux Etats-Unis, et de 1954 en
Union soviétique. Aussi, dans cet article, qui retrace l'histoire de la
création par le CNRS d'un laboratoire de traduction automatique,
tenterons-nous d'élucider deux questions. La première consiste à savoir
pourquoi la France et le CNRS ne se sont intéressés que tardivement à
la traduction automatique. La seconde concerne les raisons qui ont mené
les Français à être quasiment les seuls au monde à poursuivre ces
recherches après la parution du rapport de l'ALPAC (Automatic Language
Processing Advisory Committee) en 19662.
La traduction automatique : un enjeu scientifique, technique et économique
sans précédent3
3L'idée d'automatiser des traductions à l'aide de machines
électroniques naît en 1946, dès l'apparition des premières
calculatrices électroniques, lorsque le britannique A. D. Booth,
électronicien au Birbeck College de Londres, sollicite auprès de W.
Weaver, mathématicien, cybernéticien et vice-président de la fondation
Rockefeller, l'aide financière américaine pour construire le premier
ordinateur britannique. Les premières expériences engagées en 1948 par
A. D. Booth et R. H. Richens, relayées en 1949 par le Memorandum de W.
Weaver, suscitèrent des recherches dans plusieurs universités
américaines. Celles-ci furent rapidement évaluées par un premier
rapport de Y. Bar-Hillel en 1951, suivi d'un colloque en 1952.
4En janvier 1954 eut lieu à New York la première démonstration sur
ordinateur, une machine IBM 701, qui déclencha une accélération des
recherches. Il s'agissait de la traduction de russe en anglais de
phrases utilisant un vocabulaire de 250 mots et six règles de syntaxe
mises au point par la Georgetown University. Bien que très limitée,
cette démonstration fut montée en épingle par la presse et fit grande
impression sur le public et certains scientifiques.
5Les premières expériences de traduction automatique étaient placées
sous la pression d'une demande sociale croissante en traductions
scientifiques et techniques, ce dont témoigne un rapport de l'Unesco de
1953. Cette pression, sous forme de demande de l'État soviétique en
traductions multilingues, conduisit dès 1931 l'ingénieur soviétique
Smirnov-Troianski à élaborer le premier projet de machine à traduire4.
Aux Etats-Unis, en 1954, la demande se trouva accrue par les
possibilités qu'offraient les calculatrices électroniques. Outre des
intérêts strictement militaires et politiques liés à la période de
guerre froide, la traduction des articles russes, notamment dans le
domaine spatial, était jugée indispensable par les scientifiques
américains. La démonstration IBM-Georgetown suscita le financement de
nouveaux groupes aux Etats-Unis et en Grande-Bretagne grâce à des
subventions de la NSF (National Science Foundation) et de la CIA.
6Les recherches en traduction automatique prennent alors une dimension
mondiale5. En 1958, on dénombre une douzaine de groupes de traduction
automatique aux Etats-Unis. Les Soviétiques s'engagent dans les
recherches dès 1954, après que D. Y. Panov, directeur de l'Institut de
mécanique de précision et de calcul mécanique de l'académie des
sciences de Moscou, eut assisté à la démonstration de Georgetown-IBM.
La recherche en traduction automatique est approuvée par le 20e congrès
du PCUS en 1956 et prend d'emblée une très grande ampleur : dès 1958,
le premier congrès de traduction automatique, organisé à Moscou,
rassemble quelque 340 participants issus de 79 institutions
différentes. De nombreux pays s'engagent ensuite dans ces recherches :
le Japon en 1956, la Tchécoslovaquie en 1957, la Chine en 1958-59,
l'Italie et la France en 1959, le Mexique en 1960, la Belgique en 1961.
Les recherches restent peu développées en République fédérale
d'Allemagne, en Suède et en Finlande.
7Partout ailleurs, les investissements en personnes et en moyens
financiers furent considérables. Ils ouvrirent parfois la voie à un
certain nombre de recherches dont l'objectif consistait avant tout à
produire des réalisations automatisées très coûteuses pour des
résultats difficilement évaluables. L'alarme est donnée dès 1958 par Y.
Bar-Hillel, chargé à nouveau de l'évaluation des recherches. Son
rapport de 1960 aboutit à la création de l'ALPAC en 1964.
L'argumentation du rapport6, fondée sur des statistiques concernant le
nombre de traducteurs par rapport aux besoins en traduction, visait à
montrer l'inutilité de la traduction automatique. Seule restait
nécessaire la fabrication d'outils d'aide à la traduction. Même si ce
rapport fut très critiqué, souffrant notamment de la partialité de
certains de ses rédacteurs, dont A. G. Oettinger d'Harvard et D. Hays
de la Rand Corporation, engagés tous deux dans le courant de
linguistique computationnelle qui, aux Etats-Unis, tira son épingle du
jeu en bénéficiant du discrédit jeté sur la traduction automatique, les
subventions furent arrêtées, et les groupes de recherche démantelés. La
traduction automatique n'était plus une discipline ni même un domaine
de recherche autonome. Partout dans le monde, les domaines de
recherches se diversifièrent en intégrant la traduction automatique
sous couvert d'autres thèmes : automatique documentaire, linguistique
mathématique ou computationnelle, intelligence artificielle, avant de
renaître une décennie plus tard dans un contexte scientifique, social
et politique bien différent. Une des conséquences les plus frappantes
de cette mise à l'index brutale de la traduction automatique comme
objet scientifique à part entière a été d'astreindre les travaux
ultérieurs à s'auto-évaluer de façon régulière, voire à s'inscrire dans
une légitimité historique.
De la traduction automatique à l'automatisation de la traduction :
parcours historique
Première période (1948-1960) : idées et expérimentations
Les premières expériences de traduction automatique ont été engagées en
1948 en Grande-Bretagne et relayées en 1949 par le Memorandum de W.
Weaver qui a suscité des recherches dans plusieurs universités
américaines.
En janvier 1954 eut lieu à New York la première démonstration sur
ordinateur qui déclenche une accélération des recherches, qui prennent
bientôt une dimension mondiale. Successivement, les Soviétiques, les
Japonais, les Italiens, les Français et les Belges s'engagent dans ces
recherches. Les recherches restent peu développées en RFA, en Suède et
en Finlande. Les traductions concernent essentiellement le russe, pour
des raisons militaires et politiques liées à la période de la guerre
froide, mais aussi pour des raisons scientifiques. Partout, les
investissements en personnes et en moyens financiers sont
considérables. Ils ouvrent parfois la voie à un certain nombre de
recherches dont l'objectif consiste avant tout à produire des
réalisations automatisées opérationnelles très coûteuses pour des
résultats difficilement évaluables.
Pourtant, cette première période est foisonnante d'idées : méthodes
probabilistes, langues; intermédiaires sémantiques, méthodes empiriques
sur corpus, analyseurs syntaxiques automatiques. Apparaissent aussi les
premiers outils pour le traitement automatique des langues, comme les
dictionnaires électroniques. La plupart des idées à la fois théoriques
et méthodologiques qui présideront au développement du traitement
automatique des langues jusqu'à nos jours apparaissent pendant cette
première période.
Deuxième période (1960-1966) : l'analyse syntaxique
Dans la période 1960-66, c'est l'analyse syntaxique qui est mise en
avant comme la seule voie de recherche possible pour faire avancer la
traduction automatique. En conséquence, la production en séries de
traductions est reléguée à des temps futurs, ce qui va conduire, à
terme, à la suppression des recherches en traduction automatique au
profit de la seule linguistique computationnelle. Cette exclusivité de
l'analyse syntaxique tient au développement des grammaires formelles,
notamment de la grammaire catégorielle de Y. Bar-Hillel (1953) et de la
grammaire générative de Chomsky (1955), facilement programmables dans
des parseurs, mais aussi à la disparition des méthodes empiriques et
probabilistes qui connurent plusieurs adversaires, dont tout
particulièrement Y. Bar-Hillel et Chomsky. Quant aux méthodes
sémantiques par langues intermédiaires, mises au point par des
non-Américains, elles furent laissées à l'écart. Ainsi, lorsque le
rapport de l 'ALPAC met fin au financement des recherches en traduction
automatique aux Etats-Unis en 1966, en promouvant à la place la
linguistique computationnelle, le terrain est tout préparé.
Troisième période (1966-1980) : la survie et la « force brute » des
grands systèmes
Partout dans le monde, les recherches subirent un coup d'arrêt. Les
systèmes qui ont survécu ou qui sont créés, ailleurs qu'aux Etats-Unis,
pendant la quinzaine d'années ayant succédé à l’ALPAC, obéissent à des
critères très différents de ceux de la période précédente. Il reste
quelques systèmes de recherche (tel Ariane, développé par le GETA à
partir de 1971, ou Susy, élaboré à l'université de Sarrebruck) qui ont
surmonté la crise parce qu'ils étaient soutenus par de grands
organismes de recherche, tel le CNRS, préoccupé seulement de façon
secondaire par les aspects économiques de la traduction automatique.
C'est le cas également des systèmes qui répondent à une volonté
politique de construire des systèmes multilingues comme Eurotra
(1977-1994) pour la communauté européenne. Aucun de ces différents
systèmes n'a abouti à une industrialisation.
Le deuxième groupe concerne les systèmes industrialisés qui
« marchent ». Ce sont des systèmes qui répondent à un besoin interne de
traductions, et qui, non destinées à être publiées, peuvent se
contenter d'être de qualité médiocre. Le cas de Systran est exemplaire.
A la fois le plus industrialisé et le plus diffusé, encore
actuellement, il n'est fondé sur aucun modèle linguistique cohérent.
Descendant d'un système mis au point dans les années 50 à la Georgetown
University, il a été un des rares à avoir dépassé le stade de
l'expérimentation et à fournir des traductions brutes, dans un domaine
très spécialisé, à usage interne d'une entreprise, d'où son surnom de
« force brute ».
Le tournant japonais et l'automatisation de la communication
(1980-1990)
Le début des années 80 marque un tournant important. Le développement
des micro-ordinateurs et des traitements de texte, leur usage
démocratisé et la mondialisation de la consommation favorise
l'apparition d'une nouvelle étape pour la traduction automatique, celle
de la commercialisation. Il s'agit maintenant de traduire des modes
d'emploi, des descriptifs de produits ou de machines, conditions
indispensables pour leur commercialisation à l'échelon mondial.
Le tournant est impulsé par les Japonais en 1982, avec l'annonce du
projet « 5e génération » à l'ICOT (Institute for New Generation
ComputerTechnology) et soutenu par le très puissant MITI (Japan's
Ministry of International Trade and lndustry). L'enjeu ne concerne pas
simplement des intérêts économiques à court terme mais il s'agit d'un
pari à long terme sur une société future, fondée sur l'information. Se
développent des systèmes interactifs de traduction automatique assistée
par des humains, et des stations de travail de traduction assistée par
ordinateur (TAO), offrant aux traducteurs des ensembles d'outils rendus
utilisables par la micro-informatique et les logiciels de bureautique.
Avec les années 1980, la traduction automatique n'est plus confinée à
une utilisation « maison » mais fait partie de l'ingénierie
linguistique, au même titre que les dictionnaires électroniques, les
bases de données terminologiques et la génération de texte, qui
constitue son application privilégiée notamment dans le domaine de la
production de textes multilingues.
Depuis 1990, le retour des méthodes empiriques
Les années 1990 voient le renouveau de l'intérêt pour la traduction
automatique aux États-Unis. Celui-ci est d'abord d'ordre économique :
nécessité de traduire la documentation des concurrents japonais, baisse
des coûts de l'informatique et hausse des coûts de la traduction
surtout pour les langues à alphabets non latins comme le japonais. Ce
renouveau reste toutefois limité et se caractérise par la mise au point
de systèmes utilisant des stratégies et des techniques mixtes. Des
modules « intelligents » et des modules probabilistes viennent
compléter les modules d'analyse linguistique plus traditionnels. Mais
ces systèmes sont loin de pouvoir être commercialisés et le clivage
entre stations d'aide à la traduction et systèmes de traduction
s'accentue.
Mais surtout, une des caractéristiques des années 1990, c'est le retour
des approches empiriques et du traitement statistique de grands corpus.
Ce renouveau, suscité par le succès des méthodes stochastiques dans le
traitement du signal et la reconnaissance de la parole dans les années
1970, a bénéficié de la mise à disposition de corpus de données
textuelles importants grâce aux nouvelles possibilités de traitement
des ordinateurs et aux efforts de normalisation des textes. Plusieurs
méthodes de traduction automatique sont fondées sur les mémoires de
traduction utilisant des corpus bilingues alignés, tels le corpus
anglais-français des actes parlementaires canadiens, les Canadian
Hansards. L'alignement, c'est-à-dire la mise en correspondance des
phrases, est effectué à partir de critères exclusivement statistiques
utilisant le fait que les phrases longues dans la langue source ont
tendance à être traduites par des phrases longues dans la langue cible
et que les phrases courtes ont tendance à être traduites par des
phrases courtes.
A l'heure actuelle, on constate une certaine déconvenue vis-à-vis de la
traduction automatique. Certains déplorent le peu de progrès accomplis
depuis les années 1960, en constatant que les systèmes se sont beaucoup
améliorés sur le plan de la vitesse mais peu sur le plan de la qualité,
et que la machine produit des traductions de niveau bien inférieur à
celles produites par des traducteurs humains. Un second constat d'échec
concerne l'incapacité de la linguistique à produire des systèmes
performants de traduction automatique. Tout au plus les systèmes fondés
sur des modèles linguistiques puissants servent-ils de bancs d'essai
aux théories linguistiques computationnelles. Que penser également de
ces nouveaux systèmes, fondés sur des méthodes probabilistes, qui se
prévalent de ne pas utiliser de savoir linguistique ? On aboutit
actuellement à un double paradoxe : on n'exige plus des systèmes de
traduction automatique, fondés linguistiquement et qui ont reconquis
leur légitimité dans la linguistique computationnelle, qu'ils
fournissent des traductions ; quant aux stations d'aide aux
traducteurs, elles n'utilisent les systèmes de traduction automatique,
quand ils existent, que comme un outil parmi d'autres. Autrement dit,
on en arrive à se demander si l'automatisation de la traduction a
encore réellement besoin de la traduction automatique.
Le retard français
L'informatique7 en France à la fin des années 1950
8Dans les années 1950, on note une nette prédominance du calcul
analogique sur le calcul numérique, qui en était encore à ses
balbutiements. La France est très en retard. En 1954, il n'existait
aucune machine numérique en France, alors que la Grande-Bretagne en
possédait deux et l'Allemagne une.
9Ce retard tient à un ensemble de raisons. Henri Boucher8 raconte que,
de 1945 à 1951, l'informatique n'était aux États-Unis qu'une simple
expérimentation dont la renommée n'avait pas atteint la France. Dans
les cours de l'École polytechnique, de l'ENSGM, ou de Sup. Aero (écoles
formant les militaires), aucune allusion n'était faite à ces
recherches. Aussi A. Sestier, qui prendra la direction du CETAP, fut-il
un des rares, dans l'armement, à s'intéresser au calcul numérique.
10Les diverses compagnies accoutumées à travailler avec la Défense sur
les problèmes d'électronique et de mécanique de précision refusèrent
toutes de prendre un risque technologique en se lançant dans la
construction d'une machine française. Se reconnaissant incompétentes
tant en architecture qu'en composants, elles proposèrent de s'associer
à des sociétés américaines par le biais de licences. Toutefois, la
Défense, particulièrement soucieuse du secret de ses études, ne donna
pas suite à ces propositions. La seule société qui ait accepté de mener
des études technologiques sans recourir à une compétence étrangère a
été IBM France dont les prix étaient par ailleurs inférieurs à toutes
les propositions des sociétés françaises. Alors que l'armée et
l'industrie françaises ne manifestèrent qu'un intérêt frileux pour les
calculatrices électroniques, et que l'Université fit preuve d'une très
grande hostilité a priori à l'égard des machines et du traitement de
l'information, le CNRS fut le seul, par le biais de l'Institut
Blaise-Pascal, à se lancer dans un projet de construction de machine
électronique. Hélas, ce projet n'aboutira pas. Il s'agissait de la
fameuse « affaire Couffignal » et de la « non-construction en France du
premier ordinateur » étudiée par Girolamo Ramunni9.
L'Institut Blaise-Pascal10
11Afin de faire face aux besoins des laboratoires de recherche français
en matière de calcul et pour développer la construction de calculateurs
électroniques français, le CNRS crée en 1946 l'institut Blaise-Pascal
(IBP) sous la supervision de Joseph Perès, alors directeur adjoint pour
les sciences au CNRS (de 1945 à 1951). L'IBP regroupe deux laboratoires
existants : le Laboratoire de calcul analogique, dirigé par Lucien
Malavard, et le Laboratoire de calcul mécanique, dirigé par Louis
Couffignal.
12En 1947, le CNRS confie à L. Couffignal le soin de construire la
première calculatrice électronique française mais, en raison d'une
erreur de conception, la machine n'est pas techniquement viable et le
projet est abandonné en 1952. Après ces précieuses années perdues, le
CNRS décide finalement, en 1955, d'acheter une machine anglaise, une
Elliott 402, pour équiper l'Institut Blaise-Pascal. La première machine
française est donc anglaise.
13À son arrivée comme directeur du CNRS en 1957 (il le restera jusqu'en
1962), Jean Coulomb met fin aux fonctions de L. Couffignal qui est
remplacé par René de Possel (1905-1974). C'est à l'IBP que sont créés
le Centre d'étude pour la traduction automatique (CETA), en décembre
1959, puis la Section d'automatique documentaire (SAD), le 20 décembre
1960, sous la direction de Jean-Claude Gardin.
Les machines et les hommes
14En 1959, il n'existe que huit machines en tout et pour tout pour le
CNRS et l'Université. L'année 1959 marque toutefois un tournant. On
assiste alors à un bond décisif dans le développement de l'équipement
des universités en calculateurs électroniques grâce à la décision,
soutenue par une politique gaullienne favorisant la recherche, de
développer prioritairement trois grands centres informatiques à Paris,
Grenoble, et Toulouse. C'est donc là où sont les machines, Paris et
Grenoble, que sont créés les centres de traduction automatique.
15Selon le projet préparatoire au rapport de conjoncture 1960 du CNRS,
le retard français en informatique ne tient pas seulement au manque de
matériel. Il tient aussi à une pénurie générale de personnel
spécialisé. Il est difficile d'intéresser et de former les ingénieurs
au calcul numérique. Le désintérêt est lié au fait que le calcul
électronique, considéré comme une technique subalterne, n'est pris au
sérieux ni par les universitaires ni par les entreprises. Par ailleurs,
il faut assurer la reconversion à la programmation des calculateurs
travaillant sur des machines de bureau. Dans le cas du CNRS, précise ce
rapport, la situation est particulièrement grave : il est devenu
impossible de recruter des personnes qualifiées auxquelles l'industrie
privée offre des situations beaucoup plus avantageuses.
La cybernétique
16On peut invoquer un autre élément pour expliquer le retard français
en matière de traduction automatique. On a vu que c'est le Mémorandum
de W. Weaver, rédigé en 1949, qui a suscité les premières expériences
de traduction automatique aux États-Unis et en Grande-Bretagne. Or W.
Weaver est aussi vice-président de la fondation Rockefeller qui a
financé tous les colloques internationaux du CNRS (38 plus
précisément), de 1945 à 1955. Un de ces colloques aurait pu traiter de
la traduction automatique et susciter un intérêt pour ce domaine en
France. Il s'agissait d'un colloque organisé par L. Couffignal à l'IBP,
en janvier 1951, et intitulé « Les machines à calculer et la pensée
humaine ». Les discussions ont porté sur la cybernétique et sur les
machines à calculer numérique11 mais, malgré la présence de A. D.
Booth, un des pionniers britanniques de la traduction automatique,
cette question n'a pas été abordée et ce domaine ne semble pas avoir
trouvé d'écho en France.
La linguistique au CNRS en 1959
17Les linguistes français ne manifestent pas d'intérêt spécifique pour
les langages formels, qui, aux États-Unis, sont développés
parallèlement aux expériences de traduction automatique, souvent au
sein même de ses centres. La linguistique, représentée au CNRS par deux
sections du Comité national, « linguistique et philologie classique »
et « linguistique et philologie non classique », est orientée
essentiellement vers la philologie, l'enseignement des langues et les
prescriptions normatives12.
Émile Delavenay, l'Unesco et l'ATALA
La préhistoire de la traduction automatique en France : le rôle d'É.
Delavenay et de l'Unesco
18A la fin des années 1950, la direction du CNRS n'est pas sans avoir
une idée, au moins sommaire, sur les expériences en traduction
automatique, du moins sur celles qui sont effectuées aux États-Unis. Il
semble qu'elle en ait été informée en 1956, lorsque Gaston Dupouy,
directeur du CNRS (de 1950 à 1957), est convié, par l'intermédiaire
d'un militaire, le général Brison, à une réunion internationale « sur
les machines à traduction », organisée par Léon Dostert, responsable du
groupe de traduction automatique de Georgetown University, le 20
octobre 1956 au MIT. Il en informe le linguiste Michel Lejeune
(1907-2000)13, directeur adjoint pour les lettres et les sciences
humaines au CNRS (de 1955 à 1963), lequel ne peut pas s'y rendre.
19Un an après, en octobre 1957, l'attention de M. Lejeune est de
nouveau attirée sur la traduction automatique par Henri Laugier,
professeur à la faculté des sciences, qui lui transmet une lettre
exposant l'intérêt de monter un groupe de ce type en France. Cette
lettre est signée d'É. Delavenay, directeur du service des documents et
des publications de l'Unesco.
20Né en 1905, angliciste de formation et ancien normalien14, É.
Delavenay, par ses fonctions jusqu'en 1950 de responsable des services
de traduction et d'édition à l'Organisation des nations unies (ONU) à
New York, a été amené à s'intéresser de très près aux problèmes de
traduction sur le plan international. Il n'est donc pas étonnant qu'il
ait été l'instigateur de la traduction automatique en France.
21Finalement, en novembre 1957, M. Lejeune et É. Delavenay se
rencontrent. Entre-temps, M. Lejeune a fait la connaissance d'Erwin
Reifler, sinologue et responsable du groupe de traduction automatique
de l'université de Washington, lors du 8e congrès de linguistique
d'Oslo. À l'issue de cette entrevue, É. Delavenay convoque en février
et mars 1958 deux réunions sur la « machine à traduire » à l'Institut
de linguistique de la Sorbonne en collaboration avec André Martinet. À
cette réunion, présidée par Benveniste, assistent M. Lejeune, les
mathématiciens Georges Guilbaud, Benoît Mandelbrot, Marcel-Paul
Schützenberger, Clemens Heller de la VIe section de l'École pratique
des hautes études, et Louis Ziéglé. Dans ses mémoires15, É. Delavenay
évoque la faible réceptivité des linguistes, et des universitaires en
général, à l'idée de fabriquer une machine à traduire en France, et ces
réunions ne semblent pas avoir abouti à un projet concret.
22Parallèlement, autour de E. Delavenay, se constitue un groupe de
travail sur la traduction automatique qui se tient au courant des
travaux américains, britanniques et russes. Ce groupe prend le nom de
« groupe international d'études sur la traduction automatique » et se
réunit régulièrement à l'Unesco. II sera à l'origine de l'ATALA.
23Bien que les activités de ce groupe ne soient pas directement liées
aux fonctions d'É. Delavenay à l'Unesco, le rôle de cette institution
n'est pas négligeable. Les problèmes de traductions scientifiques et
techniques l'intéressaient de très près. L'Unesco a ainsi produit deux
rapports sur la question. Le premier, datant de 194916, est consacré
aux dictionnaires terminologiques spécialisés ; le second, datant de
1953, dresse un état des lieux des besoins croissants en traductions
scientifiques et techniques dans le monde, faisant état du manque de
formation des traducteurs et du coût trop grand des traductions.
24Par ailleurs, la création de l'ATALA, en septembre 1959, a bénéficié
du succès du premier congrès de l'IFIP (International Federation for
Information Processing) organisé par l'Unesco, à Paris, en juin 1959,
où sont présentées de nombreuses communications sur la traduction
automatique. Enfin, c'est grâce à É. Delavenay et Michael Corbe, tous
deux de l'Unesco, qu'A. Sestier, futur directeur du CETAP, prend
connaissance des recherches en traduction automatique à l'étranger.
25É. Delavenay continue à jouer un rôle important dans le développement
de cette discipline en France. Il est en relation avec de nombreux
groupes anglais et américains : le groupe de Locke au MIT, le groupe de
Reifler à l'université de Washington, et le groupe de Cambridge en
Grande-Bretagne. Président fondateur de l'ATALA jusqu'en 1965, auteur
d'un Que sais-je ? intitulé La Machine à traduire, et d'une
bibliographie sur la traduction automatique17, il fera partie du
Conseil scientifique du CETA et de la section 22 « Linguistique
générale, langues modernes et littérature comparée » du Comité
national.
L'ATALA18 et le centre Favard
26Les membres fondateurs de l'ATALA, présidée par É. Delavenay, sont
des mathématiciens, des linguistes, des ingénieurs, des traducteurs,
des documentalistes. L'ATALA se considère moins comme un organisme de
recherches que comme un forum de discussion sur la traduction
automatique, sur la documentation automatique et la linguistique
appliquée ; ce dont témoigne sa revue créée en avril 1960, la
Traduction automatique, fabriquée alternativement par les compagnies
Bull et IBM, un des lieux de pénétration en France de la linguistique
américaine et des langages formels.
27Signalons également, en mars 1960, la création du séminaire de
linguistique quantitative dirigé par Jean Favard, à l'Institut
Henri-Poincaré, qui constitue un des lieux importants de confrontation
entre linguistique et mathématiques. Un groupe fondé par le ministère
de la Défense après l'aventure de Suez pour étudier le codage des
messages à l'aide de modèles statistiques est à l'origine de ce
séminaire. Certains de ses membres ont travaillé pour le chiffre
pendant la guerre; c'est le cas de René Moreau, alors capitaine de
gendarmerie et qui deviendra le directeur du centre scientifique d'IBM.
Dans ce séminaire est diffusé un enseignement de linguistique pour
mathématiciens (André Martinet et Jean Dubois) et un enseignement pour
non-spécialistes de mathématiques, logique mathématique et théorie de
l'information (R. Moreau et Daniel Hérault). En 1962-1963, un cours
supplémentaire sur la théorie des langages est assuré par J. Pitrat et
Maurice Cross.
Création du CETA
28En 1959, l'intérêt du CNRS pour les recherches en traduction
automatique se confirme. Dans le rapport de conjoncture de 1959 du
CNRS, elle figure parmi les sujets prioritaires que se donne la
commission de mathématiques générales et appliquées, présidée par le
doyen Pérès, en collaboration avec la commission de physique théorique
et de théorie des probabilités. Celle-ci fait état d'une demande en
traduction automatique du russe, en documentation automatique, en
analyse numérique et en automatisme.
29À cette fin, il faut équiper en calculateurs électroniques deux ou
trois super-centres, Paris, Grenoble et Toulouse, avec des Gamma 60 ou
des IBM 704, centres auxquels est confiée l'étude des problèmes
prioritaires.
30Par ailleurs, la Direction de l'armement, alertée par le général
Grossin, alors directeur du SDEC (Service de documentation et de
contre-espionnage), commence à s'intéresser à la traduction automatique
et se montre disposée à y consacrer une partie de son budget de
recherche.
31Comme pour la plupart des commanditaires américains, les objectifs
sont en partie liés à l'armée et au contre-espionnage. Et l'enjeu de la
traduction automatique consiste essentiellement dans la traduction du
russe d'articles scientifiques et techniques soviétiques19.
32Le CETA est finalement créé le 24 décembre 1959 par une convention
entre le CNRS, la DEFA (Direction des études et fabrications
d'armement) et le CASDEN (Comité d'action scientifique de défense du
centre d'exploitation scientifique et technique) du ministère de la
Défense20.). Coulomb représente le CNRS, le général Guérin, le CASDEN,
et le général Sorlet, la DEFA. Il est créé, sous la supervision du
doyen Pérès, au sein du Laboratoire de calcul numérique de l'Institut
Blaise-Pascal du CNRS. Il a pour mission « l'étude et la conception
d'une méthode pour la traduction automatique notamment du russe en
français et l'étude de l'organisation générale d'une machine pour cette
fin ».
33La création du CETA à l'Institut Blaise-Pascal associe donc
étroitement la traduction automatique au développement du calcul
numérique et des calculateurs électroniques ainsi qu'à la documentation
automatique. Traduction automatique et documentation automatique sont
toutes deux sous le contrôle des mathématiques appliquées et dépendent
de la section « Mécanique générale et mathématiques appliquées » du
Comité national. Même si les équipes sont composées de spécialistes des
diverses disciplines intéressées, les mathématiciens appliqués
considèrent qu'ils sont les seuls à pouvoir animer la recherche, dans
la mesure où ils sont les seuls capables d'assurer le suivi des
questions de programmation et de structure des machines.
34Le directeur du laboratoire de calcul numérique, R. de Possel, et son
sous-directeur, André Lentin, par ailleurs membre fondateur de l'ATALA,
joueront un rôle important dans l'interaction entre mathématiques
appliquées, langages formels et linguistique. Ils sont tous deux
membres du conseil scientifique du CETA.
Le CETAP
35L'armée est, à plusieurs titres, partie prenante dans l'affaire.
Outre l'aide du CASDEN, qui assure pour moitié le financement de
l'ensemble du CETA, le CETAP bénéficie des locaux du Laboratoire
central de l'armement (LCA) au Fort de Montrouge à Arcueil. Son
directeur, A. Sestier, né en 1920, ancien élève de l'École
polytechnique, est ingénieur militaire en chef, chef de la section des
machines à calculer du LCA. L'armée est très présente dans le comité de
direction du CETA: outre des représentants du CASDEN comme le général
Guérin, et du LCA comme le général Sorlet, le comité de direction
comprend l'ingénieur général Ollier représentant le SDEC21.
36Les ingénieurs et le personnel technico-administratif appartiennent
au LCA Les deux ingénieurs à plein temps du CETAP sont Lucien Dupuis,
ingénieur civil à la DEFA, qui par ailleurs connaît le russe, et M.
Gross, né en 1934, ancien élève de l'École polytechnique et ingénieur
de l'École nationale supérieure de l'armement. Celui-ci est attaché au
service des machines à calculer du LCA.
37Les linguistes, sept slavistes et deux germanistes, sont rémunérés
par le CNRS. Cependant, à l'exception d'Yves Gentilhomme, les
russisants engagés par le CETAP ne sont pas des chercheurs, ce sont des
agrégés de russe et parfois même de simples locuteurs natifs du russe.
On dispose sur ce point du témoignage d'une des linguistes russes
engagés au CETAP sous la direction d'Y. Gentilhomme. Arrivée en France
à 18 ans en 1957 avec un « baccalauréat » russe qui comprenait une
légère formation paramilitaire, elle est affectée à la traduction de
listes de termes militaires.
Le CETAG
38Grenoble, on l'a dit, est l'un des principaux lieux d'implantation de
l'informatique en France. C'est à Grenoble qu'est fondée l'AFCAL
(Association française de calcul) en 1957, et Kuntzmann y crée la revue
Chiffres en 1958.
39Il n'est donc pas étonnant que la seconde section du CETA soit créée
à Grenoble. Et c'est au laboratoire de calcul de la faculté des
sciences, avec le soutien du professeur Kuntzmann qu'est créé le CETAG
sous la direction de Bernard Vauquois.
40B. Vauquois (1929-1985) est d'abord chercheur au CNRS de 1952 à 1958
en radioastronomie au Laboratoire d'astronomie à l'Institut
d'astrophysique de l'observatoire de Meudon, après avoir effectué des
études de mathématiques, de physique et d'astronomie. Dès 1957, son
programme de recherche porte aussi sur les méthodes appliquées à la
physique du point de vue des calculateurs électroniques et il enseigne
la programmation aux physiciens. Ce double intérêt pour l'astrophysique
et les calculateurs électroniques se reflète dans le sujet de thèse et
dans celui pour la thèse complémentaire en sciences physiques qu'il
soutient en 1958 : (i) étude de la composante lentement variable du
rayonnement radioélectrique solaire, (ii) étude de la théorie des
machines (machine de Turing et von Neumann). Il est nommé maître de
conférences en mathématiques appliquées à la faculté des sciences de
Grenoble en octobre 1958.
41Le groupe de réflexion sur la traduction automatique, qui deviendra
le CETAG, est composé de mathématiciens et d'ingénieurs mais manque
cruellement de linguistes, notamment de russisants. B. Vauquois, dans
le rapport pour le conseil scientifique du 20 février 1960, souligne le
gros atout du groupe : l'accès à la machine Gamma et à tambour
magnétique.
42Après une demande spécifique en personnels linguistes effectuée par
B. Vauquois en mai 1960 auprès de la direction du CNRS, le CETAG
comprend, à la fin de la même année, quatre spécialistes de russe, une
technicienne germaniste, et une technicienne spécialiste de japonais.
En ce qui concerne les informaticiens, le directeur de la
programmation, l'ingénieur Jean Veyrunes, disparu prématurément en
1966, a sous ses ordres deux programmeurs. Le groupe compte également
deux ingénieurs mathématiciens préparant un doctorat de mathématiques
appliquées.
Le rapport Sestier
43C'est A. Sestier, le directeur du CETAP qui a rédigé, en date du 23
novembre 1959, le rapport « Comment doit être organisé à l'échelle
française l'effort pour la traduction automatique », rapport qui va
servir de base à la définition des orientations de cette discipline en
France. C'est une des raisons pour lesquelles les deux groupes, bien
que recevant des crédits équivalents, ne sont pas à égalité au départ.
De plus, le CETAP a pris de l'avance puisqu'en tant que groupe du LCA,
il travaille sur l'allemand depuis 1958 alors que le CETAG vient tout
juste de commencer les recherches en octobre 1959. Ce déséquilibre, on
va le voir, sera à la source d'un certain nombre de malentendus entre
les deux centres.
Un centre de traduction en séries
44Selon le rapport Sestier, le CETA doit poursuivre un objectif
pratique. D'ici un délai d'environ cinq ans, le CETA a pour vocation
d'être à la fois une usine de production en série de versions
françaises de russe scientifique et technique, un centre de recherches
appliquées où des équipes constituées prépareront la traduction
automatique d'autres langues, et un centre de recherches fondamentales
en linguistique sans objectif immédiat de traduction automatique, mais
avec l'espoir que les résultats de celle-ci, complétés par des études
indépendantes, pourront être utiles à des linguistes pour élaborer ou
contrôler des théories.
45Pour A. Sestier, la production en série de traductions est donc au
premier plan et le CETA devra offrir un certain nombre de prestations :
traductions grossières et études sur l'indexation et l'extraction
automatique susceptibles d'assurer à terme, d'ici cinq à dix ans,
l'autofinancement des recherches22. A. Sestier propose d'ailleurs le
nom de « Centre d'études et d'exécution de traductions automatiques »
qui souligne sa vocation de réponse à la demande sociale.
46A. Sestier conclut son rapport par une mise en garde concernant le
risque de gaspiller les efforts et les crédits en ne faisant que
redécouvrir ce qui a déjà été trouvé aux États-Unis et en Union
soviétique. Il faut noter que le rapport de conjoncture du CNRS
(1959-60) reprend à son compte l'idée que, dans un délai de cinq à dix
ans, on aura dépassé le stade de la recherche pour produire des
traductions en série.
Technologie linguistique et ingénieurs linguistes
47La méthode préconisée par le rapport Sestier est axée sur l'analyse
de la langue source, c'est-à-dire le russe. Une lettre de A. Sestier du
18 octobre 1960 à Éric de Grolier, directeur du Centre français
d'échange et de documentation technique à Milan, expose la méthode
qu'il préconise : la traduction automatique peut se passer de théorie
parfaite ; ce qu'il lui faut, c'est une « technologie linguistique ».
Comme É. Delavenay23, A. Sestier parle de machine à traduire française.
48Cette technologie linguistique doit être le fondement scientifique de
toute traduction automatique raisonnablement correcte, même si elle ne
vise pas l'idéal bien lointain de la FAHQMT (Full Automatic High
Quality Machine Translation) préconisée au début des années 1950 par
certains chercheurs américains. Les recherches doivent s'attacher dans
un premier temps, moins à construire la morphologie, la syntaxe ou la
sémantique de telle ou telle langue particulière, qu'à dégager la
structure que doivent avoir ces disciplines, en tant que destinées à
servir de base à la traduction automatique; et cela par des amorces
d'études comparatives de diverses langues.
49Dans son rapport, A. Sestier reprend les propositions qu'il a faites
dans son article, « La traduction automatique des textes écrits
scientifiques et techniques d'un langage dans un autre », publié en
1959.
50Les outils habituels de la traduction manuelle, dictionnaires,
grammaires et syntaxes sous leur forme usuelle, sont inadéquats. La
traduction entre langues naturelles doit s'inspirer de la traduction
entre langages artificiels et des méthodes de programmation
automatique, et la construction d'une grammaire formelle de la langue
source est nécessaire. Comme aucun procédé n'a jusqu'à présent permis
de construire une telle grammaire pour aucune langue naturelle et qu'on
ne peut attendre qu'elle soit construite pour commencer les recherches
en traduction automatique, force est de rechercher des procédés plus
rapides pour construire les grammaires spécifiques nécessaires.
51C'est l'objectif de la technologie linguistique. Celle-ci consiste à
inventorier et à classer des faits linguistiques, syntaxiques,
morphologiques et lexicaux, à partir d'un corpus de textes à traduire.
L'exécution des tâches matérielles exigées par ce travail de
classification ne peut être menée à bien dans des délais raisonnables
qu'avec l'aide de calculateurs automatiques. De plus, cette méthode de
technologie linguistique demande une organisation particulière du
travail qui suppose trois groupes d'intervenants : les théoriciens (les
linguistes savants), les expérimentateurs (les linguistes exécutants)
et les consultants (les traducteurs scientifiques et techniques).
52Cette ingénierie linguistique avant l'heure trouvera un écho dans les
rapports des sections de linguistique du CNRS (rapport de conjoncture
du CNRS de 1963-1964) qui déclarent que la traduction automatique,
comme la documentation automatique, arrivée au stade de l'exploitation
rentable, doit faire appel à des « ingénieurs linguistes » comme on dit
des « ingénieurs chimistes ». Le rapport signale toutefois que le
problème principal, pour le développement de la linguistique en France,
reste la pénurie de collaborateurs qui soient pourvus d'une formation
linguistique « fondamentale »,
La répartition des tâches : un problème de machines ?
53Le rapport Sestier prévoit une répartition des tâches entre les deux
équipes, parisienne et grenobloise, répartition fondée officiellement
sur les différences de matériel et les recherches entreprises avant le
1^er janvier 1960. Selon cette répartition, Grenoble est chargée de la
morphologie, considérée comme plus facile et plus rapide à réaliser, et
Paris, dont l'expérience est plus grande, se charge de la syntaxe.
Puisque sa tâche est « simple », l'équipe de Grenoble décide de
s'attaquer aussi aux problèmes de polysémie lexicale.
54Cette décision est décrétée provisoire et fluctuante dès la première
réunion du conseil scientifique le 20 février 1960. Martinet et
Benveniste, qui en font partie, critiquent vivement cette division
entre morphologie et syntaxe. Celle-ci n'est pas pertinente,
disent-ils, dès lors qu'il s'agit de comparer deux structures : il y
aurait intérêt à partir d'une solution moins graphique et plus
linguistique, c'est-à-dire de l'autonomie du syntagme, nominal et
verbal.
55Cette belle répartition va de plus se trouver très rapidement
contrariée. Les prétextes en sont les différences de machines autant
que les différences de méthodes.
56Selon A. Sestier, le groupe de Grenoble développe un système
morphologique adaptable uniquement sur machine binaire, donc
strictement inutilisable pour le CETAP qui dispose d'une machine
décimale de taille mémoire réduite. Par ailleurs, le système du CETAG
lui paraît inutilement compliqué. Les Parisiens décident donc
d'affronter directement l'analyse morphologique. A. Sestier insiste
toutefois sur l'harmonisation indispensable des deux systèmes d'analyse
morphologique développés indépendamment par les deux équipes.
57Pour leur part, dans leur projet du 12 décembre 1960, les membres du
CETAG montrent leur intention de faire aussi des recherches en syntaxe
sur la traduction russe-français, japonais-français et
allemand-français, en adoptant principalement le modèle que Sydney Lamb
a développé au sein du groupe de.l'université de Berkeley.
58Sur la question des calculateurs utilisés, il y a un déséquilibre
certain entre les équipes. Les programmes de traduction automatique
exigent des machines à grande capacité mémoire. L'avantage est cette
fois-ci au CETAG qui ne dispose au début que d'une machine Bull,
binaire-décimale à mémoire-tambour de grande capacité, mais qui pourra
dès la fin 1960 utiliser le GAMMA 60 et l'IBM 7090 du Centre de calcul
de Grenoble, qui comptent parmi les machines les plus puissantes de
l'époque.
59Le CETAP ne peut utiliser qu'une IBM 650, machine décimale à 2 000
mots avec bandes magnétiques 727. A. Sestier adresse différents
rapports au CNRS sur l'insuffisance des machines. Plusieurs solutions
sont envisagées. Le comité de direction du 17 décembre 1960 décide
d'examiner les possibilités offertes par la machine Mark II mise au
point par l'US Air Force en collaboration avec le groupe de traduction
automatique de Washington. Une autre solution consiste à envisager la
construction d'une machine à traduire spécifiquement française en
donnant des directives aux constructeurs IBM et Bull.
60Dans un rapport de novembre 1960, A. Sestier préconise l'utilisation
de Mark II, machine spécifiquement dédiée à la traduction automatique,
intégrant une mémoire photoscopique24 de grande capacité à un
calculateur IBM classique. B. Vauquois, dans un rapport de janvier
1961, se montre moins enthousiaste à l'égard de la machine Mark II qui,
certes, présente l'avantage d'une consultation rapide de dictionnaires,
mais qui est très peu adaptée à l'analyse syntaxique et sémantique,
dans la mesure où elle ne peut dépasser le stade de l'étude de mots
consécutifs qu'au prix d'énormes difficultés alors que le calculateur
classique offre des possibilités immédiates.
61Il ne semble pas que le projet d'utilisation de Mark II ait abouti,
malgré la visite qu'ont effectuée A. Sestier et B. Vauquois au centre
de l'US Air Force à Rome dans l'État de New York, lors de leur mission
aux États-Unis de mai-juin 1961. Même si la solution adoptée
provisoirement a été de renforcer les machines existantes (la IBM 650 a
été complétée en mai 1961 par des disques magnétiques 355 à très grande
capacité mais d'accès relativement lent), l'idée de construire une
machine à traduire française n'est pas abandonnée.
La dissolution du CETAP
62L'abandon du travail en linguistique fondamentale, puis de l'idée
qu'il suffit d'une technologie linguistique pour réaliser des
dispositifs fonctionnels de traduction automatique, va progressivement
conduire A. Sestier à démissionner et à dissoudre le CETAP en octobre
1962.
L'abandon de la recherche en syntaxe
63La position d'A. Sestier se radicalise lorsqu'en automne 1960, le
CETAP décide d'arrêter les recherches sur la syntaxe « à la main »,
c'est-à-dire selon la méthode traditionnelle des linguistes, en raison
de son rendement nécessairement faible, pour se consacrer à la mise au
point d'outillage informatique pour linguistes. Par ailleurs, tous les
groupes étrangers travaillant sur la syntaxe, selon lui, se heurtent
aux mêmes difficultés théoriques, quant à la validité des modèles
utilisés. « À la réflexion, rien de bien étonnant à cela : la
linguistique est une science aussi ancienne que les mathématiques
(4 000 ans au moins). Si les spécialistes les plus chevronnés
continuent à discuter de ses principes mêmes, c'est sans doute qu'en
quelques mois, on ne peut, avec une équipe de jeunes chercheurs tout
juste sortie de sa phase d'organisation, faire plus que des générations
de savants, même en entreprenant ces recherches avec des idées de
mathématicien ou d'ingénieur, bref, en essayant d'examiner les faits
linguistiques sous un angle neuf. C'est ce que prévoyaient, dès le
départ, les maîtres de la linguistique française qui nous ont
encouragés et conseillés, non sans quelque secret amusement de notre
folle entreprise. »
Les linguistes français qui s'intéressent à la traduction automatique
64Qui sont ces maîtres de la linguistique française mentionnés par A.
Sestier ? Les linguistes français sont présents dans les instances
d'évaluation du CETA mais ne participent pas directement aux
recherches. Outre Martinet, directeur de recherche d'Y. Gentilhomme, et
Benveniste, le conseil scientifique du CETA comprenait en 1960 M.
Lejeune, Marcel Cohen, Georges Gougenheim, Bernard Quemada et deux
slavistes, Jean Train et Marc Vey. Plus tard, Jean Fourquet en fera
partie. Au CNRS, la traduction automatique est mentionnée, dans les
années 1963-1964, comme appartenant à la linguistique appliquée et est
encouragée à ce titre. Alors que le cercle de la linguistique
officielle, la SLP (Société de linguistique de Paris), se méfie de
cette « linguistique pour ingénieurs » et n'ouvre les pages de son
bulletin qu'à quelques comptes rendus de Georges Mounin sur l'état de
la traduction automatique aux États-Unis et à ceux des slavistes, comme
René L'Hermitte sur la situation en Union soviétique et dans les pays
de l'Est, c'est au sein de l'ATALA que se retrouvent les linguistes qui
s'intéressent à la traduction automatique. G. Gougenheim et M. Cohen y
sont particulièrement actifs. A. Martinet, A. Culioli, B. Pottier,
David Cohen et G. Mounin sont aussi très tôt membres de l'ATALA. La
traduction automatique permettait, selon eux, de poser de véritables
questions linguistiques.
65Notons que la linguistique en France est aussi marquée pendant cette
période par la mécanisation de la lexicologie qui en assure le
renouveau et que la traduction automatique n'est pas le seul lieu de
confrontation entre linguistique et informatique. En 1959 est créé à
Besançon le Laboratoire d'analyse lexicologique sous la direction de B.
Quemada. Le plan définitif de l'organisation d'un Trésor ou grand
Dictionnaire général historique de la langue française est approuvé par
la section de linguistique générale et des études littéraires en
novembre 1960, servant de base à la création du Trésor de la langue
française (TLF).
Le groupe de traduction automatique de Nancy
66Le groupe de Nancy est toutefois le seul groupe de traduction
automatique dirigé par des linguistes. Il est créé lors d'une réunion
organisée, le 25 mai 1960, à la faculté des lettres de Nancy par le
doyen Schneider et A. Culioli, alors professeur dans cette même
faculté, à laquelle participent, outre B. Pottier et G. Bourquin, É.
Delavenay, le président de l'ATALA, A. Martinet, et M. Legras,
directeur de l'Institut de calcul automatique de l'université qui met à
la disposition du groupe une machine IBM 650.
67Au départ, le groupe comprend deux linguistes, B. Pottier, professeur
à la faculté des lettres de Strasbourg, et G. Bourquin, chargé
d'enseignement à la faculté des lettres de Nancy. Avec le soutien du
doyen Schneider et du recteur Imbs, le groupe de Nancy obtient d'être
examiné par le CNRS lors du comité de direction du CETA dès janvier
1962 ; en juillet 63, il reçoit deux collaborateurs techniques
supplémentaires. Le groupe de Nancy se donne comme langue source
l'anglais et comme langues cibles le français et l'espagnol, choix,
dit-il, qui se justifie par un intérêt pratique, la traduction
d'ouvrages scientifiques. Sa méthode se présente comme un moyen terme
entre la méthode empirique (la traduction mot à mot) et la
formalisation mathématique, avec comme préoccupation essentielle
l'étude des problèmes linguistiques posés par la traduction
automatique.
La démission d'A. Sestier
68Plusieurs événements accélèrent le processus de démission d'A.
Sestier. L'année 1962 correspond au moment où le financement du CETA
par l'armée se trouve compromis par le remplacement du CASDEN par le
CASD, dépourvu de ressources propres. C. de Gaulle avait alors un
compte à régler avec les militaires et les a dépossédés de la recherche
au profit de civils. On est en effet à la fin de la guerre d'Algérie et
le putsch d'Alger est loin d'être oublié25.
69Malgré un dossier circonstancié et l'appui du CNRS, la demande de
subvention effectuée par A. Sestier auprès de l'OTAN26 n'aboutit pas.
La DRME (Délégation ministérielle pour l'armement, Direction des
recherches et moyens d'essai) prend le relais mais pour un quart
seulement du financement, le CNRS continuant à financer le CETA à
cinquante pour-cent pour un budget total d'environ un million de
francs. Le CNRS fait alors appel à un certain nombre de ministères afin
de financer les vingt-cinq pour-cent restants. Lors d'une réunion
regroupant en mai 1962 la direction du CNRS et les représentants des
différents ministères concernés, ceux-ci se déclarent favorables aux
recherches en traduction automatique, mais exposent leurs difficultés à
disposer des crédits demandés. Quatre-vingt-dix mille francs seulement
seront réunis à l'issue de cette réunion; le SDEC se montrant le plus
généreux en accordant cinquante mille francs.
70À l'occasion de ces difficultés de financement, on voit apparaître,
dans les réunions du CNRS chargées de l'évaluation du CETA, la question
de la demande sociale en traductions Bien que constituant un élément
important du rapport Sestier, préalable à la création du CETA et
figurant dans ses statuts au travers de la création d'un centre de
production de traductions devant assurer l'autofinancement du centre,
ce point était pourtant jusqu'alors peu présent dans les discussions.
C'est lors d'une réunion de juin 1962 qu'est évoquée la pertinence de
limiter les recherches à la traduction du russe vers le français et à
celle des textes techniques et scientifiques. Mais cela n'intéresse pas
nécessairement certains ministères, par exemple, le ministère de la
Culture. À l'issue de la réunion, ces deux orientations sont toutefois
conservées, notamment en raison de l'intérêt que présente la traduction
des textes techniques et scientifiques pour les pays en voie de
développement.
Ambiguïtés pour les humains/ambiguïtés pour la machine
Les mots, les expressions, les syntagmes et les propositions exprimées
dans une langue naturelle ont tendance à être interprétables de
plusieurs façons différentes. Malgré cela, on remarque que les êtres
humains ne butent presque jamais sur des ambiguïtés qu'ils ne
perçoivent même que rarement (et difficilement) dans un contexte donné.
Pour la machine, en revanche, tous les cas d'homonymies et de polysémie
lexicale ou syntaxique donnent lieu à des ambiguïtés. C'est un des
problèmes les plus difficiles de l'analyse automatique du langage.
Si l'on considère les deux exemples suivants, célèbres cas d'école pour
le traitement automatique des langues, deux interprétations sont
possibles pour chaque phrase :
le pilote ferme la porte
le (art., pron.) pilote (nom, verbe) ferme (verbe, nom, adj.) la (art.,
pron., nom) porte (nom, verbe)
interprétation 1 : le (art.) pilote (nom) ferme (verbe) la (art.) porte
(nom)
interprétation 2: le (art.) pilote (nom) ferme (adj.) la (pron.) porte
(verbe)
la belle ferme le voile
la (art., pron.) belle (nom, adj.) ferme (verbe, adj.) le (art., pron.)
voile (verbe, nom) interprétation 1 : la (art.) belle (nom) ferme
(verbe) le (art.) voile (nom)
interprétation 2 : la (art.) belle (adj.) ferme (nom) le (pron.) voile
(verbe)
Pour ce type de phrases, le contexte et/ou la prosodie permet de lever
l'ambiguïté qui est rarement perçue par les humains. Pour la machine,
la seule solution consiste parfois à fournir les deux interprétations.
Ambiguïtés de parenthésages
Soit l'exemple suivant, utilisé par Maurice Gross dans son rapport
critique sur la traduction automatique : la directrice de banque
enrhumée.
Deux interprétations sont possibles :
((la directrice de banque) enrhumée)
(la directrice (de banque enrhumée))
Pour lever l'ambiguïté, M. Gross préconise une analyse linguistique qui
opère la distinction animé/inanimé ne permettant le regroupement de
« enrhumée » qu'avec un humain à savoir « la directrice ».
Ambiguïtés de sens commun
Exemple extrait du fameux rapport de Y. Bar-Hillel (1960) contre la
traduction automatique : the pen was in the box
the box was in the pen
La seconde phrase est possible si l'on sait que pen en anglais signifie
à la fois crayon et parc à bébé, et qu'on peut la rencontrer dans une
phrase telle que: Little John was looking for his toy box. Finally he
found it. The box was in the pen. John was very happy.
Selon Y. Bar-Hillel, un ordinateur est incapable de résoudre cette
ambiguïté qui suppose des connaissances de sens commun, notamment sur
les tailles relatives d'un crayon et d'un parc à bébé.
Ambiguïté de référence des pronoms
Les suites suivantes montrent que pour trouver la référence des pronoms
they, la machine doit faire des inférences du type :
si quelqu'un est assassiné, il est mort, il faut l'enterrer
si quelqu'un est assassiné, il y a un assassin, il faut le retrouver.
The men murdered the women. They were caught three days later.
The men murdered the women. They were buried three days later.
Comme pour l'exemple précédent, la machine doit avoir des connaissances
de sens commun. Des systèmes de représentation des connaissances ont
été mis au point dans le cadre de l'intelligence artificielle pour
tenter de résoudre ces problèmes. A l'heure actuelle, ils sont souvent
utilisés dans les systèmes de traduction automatique.
Les garden-paths sentences ou phrases buissonnières
Ces phrases sont aussi des cas d'école. Elles sont ambiguës pour les
humains comme pour l'analyse syntaxique automatique. Dans le processus
d'analyse, le parseur se heurte à une impossibilité de choix et doit
revenir en arrière :
the boat floated clown the river sank
le bateau sombra en descendant la rivière
the horse raced past the barn fell
le cheval tomba en passant près de la grange
Le même phénomène existe aussi en français :
sur le miroir de l'eau stagnait une couleur pourpre
quand il pleure beaucoup le regarde
Voir : M. Gross, « Notes sur certains aspects des recherches en
linguistique au CNRS », rapport au directeur général du CNRS du 26
septembre 1967 et Y. Bar-Hillel, 1960, « The present Status of
Automatic Translation of Languages », in Advances in Computers, vol.1,
EC. Alt ed. Academic Press, N.Y., London, 1960, pp. 91-141.
71Limitation des crédits et discussions sur la demande sociale en
traduction automatique soulèvent la question cruciale des délais dans
lesquels il sera possible d'effectuer les premières expériences. A.
Sestier et B. Vauquois ne sont pas d'accord sur ce point : trois ans
suffisent pour B. Vauquois, alors que pour A. Sestier, rien n'est
possible avant huit ans. Celui-ci laisse entendre qu'il ne pourra pas,
avec des délais si courts, continuer à assumer la direction du CETAP.
Le directeur du CNRS assure que le CNRS est prêt à jouer le jeu et à
continuer de financer le CETA pour moitié et que l'on trouvera les
crédits nécessaires de façon que l'affaire se poursuive au moins
jusqu'en 1970, date butoir d'A. Sestier.
72Un autre facteur enfin est à prendre en compte dans la démission d'A.
Sestier : la publication du rapport Bar-Hillel. Les Français semblent
n'avoir eu que tardivement27 connaissance du rapport Bar-Hillel, publié
en 1960, à la suite d'une mission d'évaluation des centres de
traduction automatique, commanditée en 1958 par la National Science
Foundation. Ce rapport présentait de façon très négative la plupart des
activités et des résultats des centres de traduction automatique dans
le monde et surtout aux États-Unis. Lors du congrès de l'IFIP à Munich
en août 1962, où il organisait un symposium intitulé « Modern
techniques of language translation », A. Sestier le mentionne comme une
chose assez récente, mais la façon dont il en parle laisse prévoir sa
décision28. La direction du CNRS n'ignore pas les positions d'Y.
Bar-Hillel sur la traduction automatique. Dans un courrier du 10
octobre 1962, J. Coulomb attire l'attention de M. Lejeune sur le texte
d'Y. Bar-Hillel dans les actes du congrès de l'IFIP que vient de lui
envoyer A. Sestier.
73Finalement, en octobre-1962, A. Sestier donne sa démission du CETAP.
Dans le rapport d'activité du CNRS 1961-1962, les raisons de cette
démission sont exposées de la façon suivante : « La construction d'une
syntaxe pour une langue naturelle est un problème de recherche
fondamentale inséparable de celui de la sémantique; ce problème a été
abordé prématurément et exigerait, pour être résolu, de nombreuses
recherches préliminaires (de psychologie et de théorie des automates,
notamment) auxquelles la structure actuelle du CETAP ne se prête pas. »
74Après la dissolution du CETAP, certains de ses membres, comme M.
Gross et Y. Gentilhomme, rejoignent le Laboratoire de calcul numérique
de l'Institut Blaise-Pascal. Quant à Jacques Perriault, il rejoint la
SAD (Section d'analyse documentaire) dirigée par J.-C. Gardin. Le
groupe de Nancy devient, en 1969, le CRAL (Centre de recherche et
d'applications linguistiques de Nancy), associé au CNRS, qui abandonne
les travaux en traduction automatique proprement dits pour des travaux
plus généraux en traitement automatique des langues. Ainsi, une des
sections du CRAL se consacre au traitement automatique des textes
sémitiques, à la paléographie automatique et à l'analyse documentaire
automatique.
75Ne reste donc plus que le groupe de Grenoble, qui, tout en continuant
à être rattaché à l'Institut Blaise-Pascal, devient laboratoire propre
du CNRS en 1963, en gardant le nom de CETA29. À partir de fin 1962, son
directeur, B. Vauquois, monte en puissance dans les instances
représentatives. En 1963, il est membre de la section 22 du Comité
national : « Linguistique générale, langues moderne et littérature
comparée ». Puis, en 1969, il sera membre de la section 28 :
« Linguistique générale, langues et littératures étrangères ». Dès
1965, il est vice-président de l'ATALA. IL en sera le président de 1966
à 1971. Il sera un des fondateurs, également en 1965, de l'ICCL
(International Committee on Computational Linguistics).
Conclusion
76Une des spécificités de l'histoire du Centre de Grenoble, c'est qu'il
ne semble pas avoir été ébranlé par la crise de 1965, contrecoup de la
crise américaine, qui affectera profondément l'ATALA. Le déclin de la
traduction automatique, amorcé depuis 1960 aux États-Unis suite à la
publication du rapport Bar-Hillel, devient inéluctable avec la
publication du rapport de l'ALPAC en 1966 qui mit fin aux subventions
des recherches en traduction automatique aux États-Unis et pratiquement
dans le monde entier.
77Le CNRS accuse la crise de façon modérée et ne cesse de soutenir le
CETA. Selon le rapport de conjoncture du CNRS de 1963-1964, les
sections de linguistique du Comité national maintiennent leur soutien
prudent à la traduction automatique. La section 23, « Linguistique
française et études littéraires », mentionne dans ses recommandations
l'intérêt de la linguistique appliquée, dont fait partie la traduction
automatique.
78La section de mathématiques appliquées parle d'une phase de reflux,
mais précise que les recherches en cours en traduction automatique
doivent être poursuivies avec toutes les ressources actuelles, et, qu'à
condition d'être menées en profondeur, elles conduiront un jour à des
résultats intéressants. La section ne semble pas affectée par la
démission d'A. Sestier et encourage la collaboration entre linguistes
et logiciens pour mener à bien une « étude minutieuse et patiente des
langues naturelles ». Par ailleurs, l'idée de construire une machine
dédiée à la traduction est loin d'être abandonnée. La section préconise
des études de logique de circuits et d'organes de machine adaptées à
des fins de traduction, de même que des études de programmation dans le
domaine non numérique visant à la création et à la compilation de
langages adaptés.
79Concernant plus spécifiquement les activités du CETA, le conseil
scientifique de décembre 1966 recommande de diversifier les domaines
d'applications des méthodes élaborées par le centre. La traduction
automatique n'est plus à considérer comme le but premier et doit
apparaître comme un produit dérivé d'études linguistiques et logiques
plus générales.
80Donc, malgré la crise, le CETA tient bon. Ses crédits sont augmentés
et ses locaux agrandis30. R. de Possel demande, au nom du conseil
scientifique réuni le 15 décembre 1966, les félicitations pour le
travail accompli par B. Vauquois. Enfin, la seconde conférence
internationale sur le traitement automatique des langues se tient en
août 1967 au CETA qui y présente sa première expérience de traduction
sur ordinateur (le premier test aura lieu en juin 1967).
81Toutefois, il faut pondérer cette impression de prospérité : le CETA
se porte très bien en 1967, mais moins bien en 197131, date à laquelle
il sera privé d'une partie de ses forces, chercheurs et moyens, et perd
son statut privilégié de laboratoire propre du CNRS. Cela dit, sa
reconversion se fait progressivement32, et non brutalement comme aux
États-Unis. À cet égard, on peut invoquer le fait que l'instance
d'évaluation et le bailleur de fonds qu'est le CNRS assure une certaine
stabilité aux équipes en raison de ses caractéristiques propres :
présence des intéressés dans les instances d'évaluation, façon dont est
prise en compte la demande sociale, évaluation des modèles théoriques
et évaluation des résultats. Dans le cas de la traduction automatique,
qui doit viser avant tout une production industrielle, les choses sont
éminemment ambiguës. On peut d'ailleurs supposer que cette stabilité a
permis au CETA, devenu GETA en 1971, de prendre un second souffle et de
réaliser dès le début des années 1970 Ariane-78, un système
multiniveaux fondé sur la méthode de transfert, considéré comme un des
plus importants et des plus influents de l'époque.
82Avec la publication du rapport de l'ALPAC en 1966, la traduction
automatique n'a plus eu droit de cité aux États-Unis jusqu'au début des
années 1990. Elle ne sera définitivement pas cette science du langage
appliquée qu'elle aspirait à devenir et le mythe de la traduction de
très bonne qualité (équivalente à la traduction humaine) est bel et
bien révolu.
83Pourtant, la traduction automatique a survécu. Elle est, à l'heure
actuelle, un secteur important du traitement automatique des langues.
Le domaine s'est considérablement modifié au fil des décennies, tant
par le développement technologique que par la transformation de la
demande en traductions suscitée par la mondialisation de la
consommation. Le succès des outils d'aide à la traduction semble avoir
finalement permis de conjurer le spectre de l'ALPAC. Mais ce succès
passe par un double paradoxe : on n'exige plus des systèmes de
traduction automatique de fournir des traductions ; quant aux stations
d'aide aux traducteurs, elles n'utilisent les systèmes de traduction
automatique, quand ils existent, que comme un outil parmi d'autres.
Autrement dit, on en arrive à se demander si l'automatisation de la
traduction a encore réellement besoin de la traduction automatique.33
Haut de page
Bibliographie
En plus des ouvrages et rapports cités en notes, l'auteur a consulté :
- Fonds documentaire du CNRS de Gif-sur-Yvette : les rapports
d'activité annuels du CNRS (1950-1975) et les rapports de conjoncture
du CNRS (1959-1974).
- Fonds d'archives du CNRS de Gif-sur-Yvette : dossiers scientifiques
CNRS 910024 DPC.
- Fonds d'archives du Centre des archives contemporaines de
Fontainebleau : archives historiques F 780309 (53) et (54).
- Archives de l'ATALA.
- Rapports :
A. Sestier, « L'automatisation de l'analyse syntaxique », document du
CETAP, note n° 13, 19 octobre 1961.
Unesco, Report on scientific and technical translating and related
problems [WS/073.119], 1953.
B. Vauquois, « Étude sur le choix du matériel destiné à la traduction
automatique », 13 janvier 1961.
- Cahiers pour l'histoire du CNRS (1939-1989).
- J.-L. Chiss et Christian Puech (dir.), « La linguistique comme
discipline en France », Langue française, n° 117, février 1998.
A. Sestier, « La traduction automatique des textes écrits scientifiques
et techniques d'un langage dans un autre », in Ingénieurs et
techniciens, partie I et II, 1959.
Haut de page
Documents annexes
La machine de Trojanskij (image/jpeg – 154k)
Le langage pivot (image/jpeg – 159k)
Trois méthodes de traduction automatique (image/jpeg – 84k)
Une expérience de traduction "mot à mot" par l'application d'un
dictionnaire électronique (méthode directe) (image/jpeg – 149k)
Haut de page
Notes
1Cf. La Revue pour l'histoire du CNRS, n° 1, novembre 1999.
2Rapport qui interrompit les recherches pour une période allant d'une
dizaine d'années en Europe jusqu'à près de vingt-cinq ans aux
États-Unis.
3Sur les enjeux de la traduction automatique de la fin des années 1940
à nos jours, voir J. Léon, « La traduction automatique I : les
premières tentatives jusqu'au rapport ALPAC », et « La traduction
automatique II : développements récents » Handbücher zur Sprachund
Kommunikationswissenschaft, Berlin, Éd. Walter de Gruyter and co.,
volume 3, Histoire des sciences du langage (à paraître).
4Reposant sur une consultation de dictionnaires, une pré et
post-édition, et une langue intermédiaire, cette machine était
présentée comme une méthode économique de traduction multilingue dans
la mesure où chaque traducteur n'était tenu de connaître qu'une seule
langue.
5Sur les débuts de la traduction automatique aux États-Unis, en
Grande-Bretagne et en U, voir W. I. Hutchins, Machine translation,
part, present, future, Ellis Horwood Ltd, 1986; J. Léon, « Les débuts
de la traduction automatique en France (1959-1968) : à contretemps ?»,
Modèles linguistiques, tome XIX, fascicule 2, p. 55-86, 1998 ; « La
mécanisation du dictionnaire dans les premières expériences de
traduction automatique (1948-1960) », History of Linguistics 1996, vol.
II, D. Cram, A. Linn, E. Nowak (dir.), p. 331-340, John Benjamins
Publishing Company, 1999, et « Traduction automatique et formalisation
du langage. Les tentatives du Cambridge Language Research Unit
(1955-1960) », in The History of Linguistics and Grammatical Praxis, P
Desmet, L. Jooken, P. Schmitter, P. Swiggers (dir.), Louvain-Paris,
Peeters, 2000, p. 369-394 ; S. Archaimbault et J. Léon, « La langue
intermédiaire dans la traduction automatique en U (1954-1960).
Filiations et modèles », Histoire-Épistémologie-Langage, 1997, p. 19-2
et 105-132.
6« Language and machines. Computers in translation and linguistics », A
report by the Automatic Language Processing Advisory Committee (ALPAC),
National Academy of Sciences, National Research Council, 1966.
7On ne parlait évidemment pas d'informatique à l'époque, le terme
n'étant apparu qu'en 1962 sous la plume de P. Dreyfus (Dictionnaire des
mots nouveaux, P. Gilbert, 1972), formé à partir de information et
automatique. Il ne fut réellement en usage qu'à la fin des années 1960.
8Henri Boucher, « L'informatique dans la défense », actes du colloque
sur l'histoire de l'informatique en France, Grenoble, mai 1988, p.
83-102.
9G. Ramunni, La physique du calcul. Histoire de l'ordinateur, Paris,
Hachette, 1989, 287 p. ; « La non-construction du premier calculateur
électronique au CNRS (I) et (II) », Micro-bulletin nos 42, décembre
1991 et 43-44-45, février-mars 1992.
10Concernant l'histoire de l'Institut Blaise-Pascal, voir Pierre
Mounier-Kuhn, « L'Institut Blaise-Pascal du CNRS de 1946 à 1969 »,
actes du colloque De Bourbaki à la Machine à Lire — Journée d'hommage à
R. de Possel, ENS-Ulm, 16 novembre 1994, p. 13-30.
11G. Ramunni, « La non-construction... », op. cit.
12Sur la situation de la linguistique en France au début des années
1960, voir, entre autres, l'article de J. -C. Chevalier et P. Encrevé,
« La création de revues dans les années 1960. Matériaux pour l'histoire
récente de la linguistique en France », Langue française, n° 63, et le
numéro de Langue française consacré à « La linguistique comme
discipline en France » (n° 117).
13M. Lejeune est spécialiste de grec ancien des langues celtiques
italiques, et s'est beaucoup intéressé à l'histoire des systèmes
d'écriture.
14J. Coulomb, M. Lejeune et É. Delavenay ont été, la même époque, élève
à l'École normale supérieure Ulm.
15É Delavenay, Témoignage. D'un village savoyard au village mondial,
diffusion Édisud, Aix-en-Provence, 1992.
16J. E. Holmstrom, « Rapport sur les dictionnaires scientifique et
techniques multilingues », Paris, Unesco, 1951.
17É. Delavenay et K. Delavenay, Bibliographie de la traduction
automatique, Gravenhage, Mouton and co, 1960.
18Sur la création de l'ATALA et sur la biographie de ses membres
fondateurs, voir A. Lentin « Naissance et premiers pas de l'ATALA :
quelques souvenirs et quelques réflexions », Traitement automatique des
langues, 1992, vol. 33, n° 1-2, p. 7-24, et J. Léon, « De la traduction
automatique à la linguistique computationnelle. Contribution à une
chronologie des années 1959-1965 », Traitement automatique des langues,
1992, vol. 33, n° 1-2, p. 25-44.
19Outre les enjeux purement politiques et militaires, renforcés dans un
contexte de guerre froide, qui motivaient les besoins en traduction du
russe, il existait également une très grande rivalité scientifique
entre Américains et Soviétiques qui stimulait la production de machines
à traduire. Les Américains étaient persuadés que les Soviétiques
étaient très en avance sur eux sur le plan scientifique, non seulement
dans le domaine de l'aérospatiale (le premier Spoutnik date de 1957)
mais aussi dans le domaine de la traduction automatique. Cette opinion
était partagée par les Français, si l'on en juge par la première
version d'une demande de subvention adressée par A. Sestier à l'OTAN en
juin 1961 qui se termine par le constat que, bien que l'effort des
Soviétiques en matière de traduction automatique soit, de l'avis même
des experts américains, encore plus grand que celui des Etats-Unis, on
n'a, depuis 1958, que peu de renseignements sur les travaux russes. Une
des hypothèses est que « les Soviétiques préparent à l’Occident une
surprise spectaculaire, telle, peut-être que l'édition de traductions
machine de livres soviétiques ».
20Le CASDEN était déjà en charge de la traduction d'articles
scientifiques russes.
21Le comité de direction, présidé par J. Coulomb, directeur du CNRS,
comprenait également le doyen Pérès, É. Delavenay, R. de Possel, M.
Lejeune, Raymond Cheradame directeur des études de l'École
polytechnique, A. Sestier et B. Vauquois.
22R. de Possel va s'attaquer à un des problèmes en amont de la
traduction automatique, à savoir la lecture automatique des caractères.
Cf. actes du colloque De Bourbaki è la Machine à Lire – Journée
d'hommage à R. de Possel, ENS-Ulm, 16 novembre 1994.
23É. Delavenay, La Machine à traduire, Paris, PUF, « Que sais-je? »,
1960.
24Il s'agit d'un système permettant d'enregistrer 33 millions de bits
sur quatre disques de verre revêtus d'une émulsion photographique, sous
forme de carrés rouges, verts, blancs ou noirs, lus à l'aide de tubes à
rayons cathodiques et de photomultiplicateurs.
25Une grande partie des officiers engagés dans des activités de
recherche ont alors démissionné de l'armée pour rejoindre l'industrie.
Nous remercions René Moreau pour cette information.
26A. Sestier, « Justification d'une demande de subvention à l'OTAN »,
version 1 de juin 1961 ; version 2 du 8 octobre 1961. Il est probable
que cette demande a souffert de la détérioration des relations de la
France avec l'OTAN. On sait que Ch. de Gaulle manifesta une vive
opposition, en décembre 1962, aux accords conclus à Nassau par J. F.
Kennedy et Macmillan sur le projet de force multilatérale. Cette
opposition aboutira en mars 1966 à un double retrait : des forces
françaises soumises à l'autorité de l'OTAN et des forces étrangères qui
se trouvaient sur le sol français dans le cadre de l'alliance.
27Pourtant É. Delavenay possédait la première version de ce rapport
datant de février 1959 (cf. archives de l'ATALA)
28Nous remercions André Lentin pour cette information.
29Sur l'histoire des réalisations du CETA, voir l'article de Christian
Boitet qui prit la direction du GETA, après la disparition de B.
Vauquois en 1985, « TA et TAO à Grenoble... 32 ans déjà ! » TAL, vol.
33, n°` 1-2, 1992, p. 45-84.
30Avec un budget d'un million de francs et 20 collaborateurs en 1963,
il atteint les 35 personnes début 1965. Ce budget de 1 million sera
augmenté en 1966. En 1964, un budget spécial est voté pour la
construction du bâtiment du CETA sur le campus de Saint-Martin-d'Hères,
bâtiment qui sera inauguré en août 1967.
31Sur ce point et l'impact du rapport de M. Cross au directeur général
du CNRS, « Notes sur certains aspects des recherches en linguistique au
CNRS », 26 septembre 1967, voir J. Léon, « Les débuts de la traduction
automatique en France (1959-1968) : à contretemps ? », Modèles
linguistiques, tome XIX, fascicule 2, 1998, p. 55-86.
32Actuellement, le GETA, toujours sous la direction de C. Boitet,
poursuit ses travaux sur la traduction assistée par ordinateur, dans le
laboratoire CLIPS de l'Institut d'informatique et de mathématiques
appliquées de Grenoble.
33Ce point est argumenté dans J. Léon, « De la traduction automatique à
l'automatisation de la traduction : parcours historique », in Bulag, n°
25, 2000, p. 5-21.
Haut de page
Pour citer cet article
Référence électronique
Jacqueline Léon, « Le CNRS et les débuts de la traduction automatique
en France », La revue pour l’histoire du CNRS [En ligne], 6 | 2002, mis
en ligne le 05 juillet 2007, consulté le 08 janvier 2019. URL :
http://journals.openedition.org/histoire-cnrs/3461
Haut de page
Auteur
Jacqueline Léon
Jacqueline Léon est chargée de recherche au CNRS au Laboratoire
d'histoire des théories linguistiques.
Haut de page
Droits d’auteur
Comité pour l’histoire du CNRS
Haut de page
Sommaire – Document suivant
Navigation
Index
Auteurs
Mots-clés
Numéros en texte intégral
26 | 2010
Sport, recherche et société
25 | 2010
L’Aventure européenne du CNRS, I
24 | 2009
Soixante-dixième anniversaire du CNRS
23 | 2008
Astrophysique : une science en expansion
22 | 2008
La géopolitique mode d’emploi
21 | 2008
Entre mémoire et oubli
20 | 2008
Aventures et recherches aux pôles
19 | 2007
Neurosciences : essor et enjeux
18 | 2007
Voyages collectifs en géographie
17 | 2007
Objectif biotechs ?
16 | 2007
L’expertise scientifique
15 | 2006
CNRS et Université
14 | 2006
Le patrimoine scientifique
13 | 2005
Regards sur des laboratoires en sciences humaines et sociales
12 | 2005
Les grands équipements scientifiques du CNRS
11 | 2004
Le CNRS au sein du dispositif de recherche français : ses relations
avec d’autres organismes
10 | 2004
Penser la pensée. Les sciences cognitives
9 | 2003
Histoire du temps présent
8 | 2003
Aux origines de l’Homme
7 | 2002
La biologie | Menaces sur les sciences sociales vers 1980
6 | 2002
Les années 60 : l’Espace, l’Océan, la Parole
5 | 2001
Des laboratoires à l’étranger
4 | 2001
L’environnement
3 | 2000
Regards sur l’étranger
2 | 2000
Les premiers laboratoires du CNRS
1 | 1999
Le CNRS au temps de Charles de Gaulle
Tous les numéros
A l’affiche
Exposition : « CNRS, la naissance »
Tables rondes
Les tables rondes du Comité pour l’histoire du CNRS
« L’astrophysique, une science en expansion »
« La géopolitique mode d’emploi »
« Neurosciences : essor et enjeux »
« Les experts face à leurs responsabilités »
« Le CNRS et les universités : quelle collaboration ? »
de
La revue en quelques mots
Organisation scientifique
Contacts et crédits
Politiques de publication
Syndication
Fil des numéros
Fil des documents
Lettres d’information
La Lettre de OpenEdition Journals
Affiliations/partenaires
Logo Comité pour l'histoire du CNRS
OpenEdition Journals
ISSN électronique 1955-2408
Plan du site – La revue en quelques mots – Organisation scientifique –
Contacts et crédits – Flux de syndication
Nous adhérons à OpenEdition Journals – Édité avec Lodel – Accès réservé
OpenEdition
OpenEdition Books
+ OpenEdition BooksBooks in the humanities and social sciences
+ Books
+ Publishers
+ Further information
OpenEdition Journals
+ OpenEdition JournalsJournals in the humanities and social
sciences
+ Journals
+ Further information
Calenda
+ CalendaAcademic announcements
+ Announcements
+ Further information
Hypotheses
+ HypothesesResearch blogs
+ Blogs catalogue
s and alerts
+ Subscribe to the newsletter
+ Alerts and subscriptionsAlert service
OpenEdition Freemium
____________________
#alternate alternate alternate Actualité CommentCaMarche.net
Donnez votre avis
Choisir un outil traduction automatique en ligne
Elegir una herramienta de traducción automática en línea ES Choisir un
outil traduction automatique en ligne FR Escolher uma ferramenta de
tradução automática online BR
Posez votre question
De nombreux outils en ligne sont disponibles gratuitement pour traduire
des pages web, textes et expressions en plusieurs langues. Dans quel
cas les utiliser con Quels traducteurs automatiques sont les plus
performants aujourd'hui ? Quelques précautions d'usage et une liste de
services disponibles.
Avant de choisir un traducteur automatique en ligne
Quelle qualité de traduction ?
Plusieurs éditeurs de logiciels et fournisseurs de services web
proposent des outils gratuits de traduction automatique.
Plusieurs éléments à prendre en compte avant d'utiliser ces services :
La qualité des traductions fournies varie selon le service, et
selon les langues,
ces traducteurs sont souvent des versions allégées de services
payants plus performants,
ils sont limités pour la traduction de documents techniques (ex :
notices),
bien que les algorithmes se perfectionnent, ils ne se substituent
pas à des opérateurs humains (traducteurs professionnels).
Dans quels cas utiliser un traducteur automatique en ligne ?
Traduction mot à mot (dictionnaire),
traduction de textes et de pages web
traduction de correspondances professionnelles,
compréhension globale d'un texte produit dans une langue nom
maîtrisée.
Les différents types de traducteurs automatiques en ligne
Les dictionnaires en ligne
Ils conviennent pour une traduction mot à mot, et pour trouver des
exemples d'utilisation d'expressions en contexte. L'un des plus
utilisés est wordreference.com qui traduit en 16 langues.
Les traducteurs de texte en ligne
Ils conviennent pour la traduction de textes ou de pages web :
Google Translate : 72 langes traduites depuis le français (et vice
versa)
Bing Translator : 43 langues traduites depuis le français (et vice
versa)
Babylon : une trentaine de langues traduites depuis le français (et
vice versa)
WorldLingo (idem)
Systran : 7 langues traduites depuis le français (et vice versa)
Autres : Reverso
Les traducteurs d'expressions/de phrases
Ces outils sont très pratiques : ils permettent de traduire des
expressions et groupes de mots d'une phrase en s'appuyant sur une base
de données de documents officiels traduits en plusieurs langues. Les
traductions sont ainsi très qualitatives.
Par exemple :
Linguee
Vous cherchez un application pour vous faire comprendre à l'étranger ?
Pas de panique, utilisez Conversation de voyage
Jean-François Pillou
Cet article est régulièrement mis à jour par des experts sous la
direction de Jean-François Pillou, fondateur de CommentCaMarche et
directeur délégué au développement numérique du groupe Figaro.
En savoir plus sur l'équipe CCM
A voir également
Outils de traduction automatique
Outil de traduction automatique - Meilleures réponses
Traduction automatique - Meilleures réponses
Gmail intègre un outil de traduction automatique - Actualités
Yammer va intégrer un outil de traduction automatique des messages
- Actualités
Youtube désactiver traduction automatique - Forum - YouTube
Traduction automatique chrome - Conseils pratiques - Navigateurs
Google traduction automatique d'un site - Conseils pratiques -
Moteurs de recherche
[INS: :INS]
Article original publié par Carlos Villagómez. Traduit par
CommentCaMarche. Dernière mise à jour le 20 janvier 2014 à 18:20 par
noctambule28.
Ce document intitulé « Choisir un outil traduction automatique en
ligne » issu de CommentCaMarche (https://www.commentcamarche.net/) est
mis à disposition sous les termes de la licence Creative Commons. Vous
pouvez copier, modifier des copies de cette page, dans les conditions
fixées par la licence, tant que cette note apparaît clairement.
Précédent
Tirer parti de la reconnaissance vocale sur son smartphone
#alternate alternate alternate alternate alternate alternate Yuqo » La
naissance et l’histoire de la traduction automatique Flux des
commentaires alternate alternate
La naissance et l’histoire de la traduction automatique
Hello Yuqo
Hello Yuqo
L
La traduction automatique n’est désormais plus un fantasme de
science-fiction. Les systèmes informatiques améliorent radicalement
leur compréhension de la nature complexe du langage. Mais ces systèmes
sont-ils suffisamment sophistiqués pour dépasser les traducteurs
humains ?
Reading Time: 5 minutes
La traduction automatique est en développement depuis des décennies et,
à chaque jour qui passe, elle devient de moins en moins un espoir de
science-fiction pour s’approcher un peu plus de la réalité. Comprendre
les nuances d’une langue est difficile même pour une personne humaine
et il apparaît désormais que c’est la raison pour laquelle la
traduction automatisée n’a pu se développer que jusqu’à son état
actuel.
LES DÉBUTS DE L’HISTOIRE
Les développeurs ont rêvé d’ordinateurs qui pourraient rapidement
comprendre et traduire les langues depuis que le potentiel d’un tel
appareil a été réalisé pour la première fois. Une des conséquences les
plus importantes de la création et de l’amélioration des technologies
de traduction est qu’elles ouvrent le monde des informatiques au-delà
de simples fonctions mathématiques et logiques, vers des relations plus
complexes entre les mots et les significations.
L’histoire de la traduction automatisée a débuté dans les années 1950.
Warren Weaver, de la Fondation Rockfeller, a commencé à combiner le
décryptage automatisé et le traitement des langues naturelles, un acte
fondateur du concept de traduction par ordinateur, dès 1949. Ces
propositions peuvent être trouvées dans son « Memorandum sur la
Traduction ».
L’histoire de la traduction automatisée a débuté dans les années 1950.
De manière assez fascinante, il n’a pas fallu attendre longtemps avant
que des projets de traduction par ordinateur soient lancés. L’équipe de
recherche ayant fondé l’expérience Georgetown-IBM a fait la
démonstration en 1954 d’une machine qui pouvait traduire 250 mots du
russe à l’anglais.
DÉVELOPPEMENT ACTUEL
On pensait alors que la traduction automatique allait rapidement
résoudre un grand nombre de problèmes autour des barrières de
communication et beaucoup de traducteurs se sont mis à craindre pour
leur emploi. Cependant, les avancées ont fini par stopper avant de
prendre leur envol, en raison des subtiles nuances des langues que les
ordinateurs ne pouvaient tout simplement pas saisir.
Peu importe la langue, les mots ont souvent de multiples significations
ou connotations. Le cerveau humain est tout simplement mieux équipé
qu’un ordinateur pour accéder au cadre complexe du sens et de la
syntaxe. En 1964, l’Automatic Language Processing Advisory Committee
(ALPAC) américain a rapporté que la traduction automatique ne méritait
pas les ressources ou les efforts consacrés à son développement.
1970-1990
Tous les pays n’ont pas été du même avis que l’ALPAC. Dans des années
1970, le Canada a développé le système METEO, qui traduisait les
prévisions météorologiques de l’anglais vers le français. C’était un
programme simple qui pouvait traduire 80 000 mots par jour. Le
programme était suffisamment réussi pour être utilisé jusque dans les
années 2000 avant d’avoir besoin d’une mise à jour du système.
L’Institut Français du Textile a utilisé la traduction automatisée pour
convertir des abstracts du français à l’anglais, à l’allemand et à
l’espagnol. À la même époque, Xerox a utilisé son propre système pour
traduire des manuels techniques. Les deux ont été utilisés avec succès
dès les années 1970, mais la traduction automatique ne faisait
qu’effleurer la surface en traduisant des documents techniques.
Dans les années 1980, on s’est plongé dans le développement de la
technologie des mémoires de traduction, ce qui a été le début du
dépassement des problèmes posés par la communication verbale nuancée.
Mais les systèmes ont continué à faire face aux mêmes écueils en
essayant de convertir un texte dans une nouvelle langue sans perdre de
sens.
2000
En raison de la création d’Internet et de toutes les opportunités que
cela avait ouvert, Franz-Josef Och a gagné une compétition de vitesse
de traduction automatisée en 2003 et il est devenu chef du
Développement Traduction chez Google. En 2012, Google a annoncé que son
programme Google Translate traduisait suffisamment de texte pour
remplir un million de livres par jour.
Le Japon est également en pointe de la révolution de la traduction
automatisée en créant des traductions parole à parole pour les
téléphones mobiles qui fonctionnent en anglais, en japonais et en
chinois. C’est le résultat d’un investissement en temps et en argent
pour le développement de systèmes informatiques qui modélisent un
réseau neural, au lieu de fonctions à base de mémoire.
C’est ainsi que Google a annoncé en 2016 que l’implémentation d’une
approche de réseau neural améliorait la clarté sur Google Translate, en
éliminant beaucoup de ses imprécisions. Ils l’ont appelé le système
Google Neural Machine Translation (NMT). Ce système a commencé à
traduire des paires de langues qu’on ne lui avait pas appris. Les
programmeurs ont appris au système la traduction de l’anglais au
portugais, ainsi que de l’anglais à l’espagnol. Le système s’est alors
mis à traduire le portugais et l’espagnol, alors que cette paire de
langues ne lui avait pas été assignée.
FUTURES AVANCÉES
On pensait autrefois que le temps était enfin venu et que l’on allait
voir les traductions automatiques pouvoir dépasser leurs homologues
humains. En 2017, la Cyber Université de Sejong et l’Association
Internationale d’Interprétation et de Traduction de Corée ont mis en
compétition quatre humains et des systèmes de traduction automatiques
de pointe. Les machines ont traduit le texte plus vite que les humains,
sans l’ombre d’un doute, mais elles ne pouvaient toujours pas rivaliser
avec l’esprit humain pour ce qui est des nuances et de la précision de
la traduction.
L’humanité rêve de la vitesse et de la facilité promise par une
traduction automatique fiable et précise depuis bien avant les années
1950. L’idée séduisante d’un mode de communication partagé dans le
monde entier a encore un long chemin à faire. Créer un ordinateur qui
pense plus comme un humain ouvrira la voie à un monde de possibilités,
au-delà de la simple communication. La technologie a avancé bien plus
loin que la simple utilisation d’une machine pour traiter des nombres –
elle unit le monde toujours plus étroitement à chaque année qui passe.
Mais pour le moment, vous feriez bien mieux de vous en tenir à des
traducteurs humains pour les textes importants.
IFRAME: https://www.youtube.com/embed/_GdSC1Z1Kzs
Partager
Partagé
Vous pourriez aussi aimer :
6 choses à prendre en compte avant de traduire votre site web En Savoir
Plus
6 avril 2018 à 08:04 7 minutes de lecture
6 choses à prendre en compte avant de traduire votre site web
Toute entreprise rêve d’avoir une solide présence internationale. Dans
cet article, nous explorons 6 choses à prendre en compte avant de
préparer votre entreprise en ligne pour une croissance internationale.
Steven Mike Voser
Steven Mike Voser
La langue du succès : comment la localisation a aidé ces 3 entreprises
à dominer les marchés étrangers En Savoir Plus
8 septembre 2017 à 01:09 7 minutes de lecture
La langue du succès : comment la localisation a aidé ces 3 entreprises à
dominer les marchés étrangers
Vous cherchez à lancer votre entreprise sur la scène internationale ?
Ici, vous pouvez savoir plus sur la localisation et comment elle a aidé
3 entreprises à dominer le marché global.
Steven Mike Voser
Steven Mike Voser
Le top des langues pour la traduction des applis En Savoir Plus
7 mai 2018 à 08:05 5 minutes de lecture
Le top des langues pour la traduction des applis
Sur la place de marché globale du 21ème siècle, il n'existe plus que
peu d'applications uniquement en anglais. Mais même avec
l'automatisation de la technologie, la traduction reste une compétence
importante à laquelle les développeurs et designers doivent faire
attention pour le succès de leurs applis.